OREILLY 


I 全 图 灵 程 序 设计 从 书 


Java 性 能 
公 存 指正 


Java Performance: The Definitive Guide 





[ 美 ] Scott Oaks 著 
柳 飞 陆 明 刚 减 秀 涛 译 





中 国信 版 入 团 。 稼 人民 


效 字 有 版权 声明 


图 灵 社 区 的 电子 书 没有 采用 专 有 客 
户 端 ， 您 可 以 在 任意 设备 上 ， 用 自 
己 喜 欢 的 浏览 器 和 PDF 阅读 器 进行 
阅读 。 

但 您 购买 的 电子 书 仅 供 您 个 人 使 用 ， 
未 经 授权 ， 不 得 进行 传播 。 

我 们 愿意 相信 读者 具有 这 样 的 良知 
和 觉悟 ， 与 我 们 共同 保护 知识 产权 。 


如 果 购 买 者 有 侵权 行为 ， 我 们 可 能 
对 该 用 户 实 施 包括 但 不 限于 关闭 该 
帐号 等 维权 措施 ， 并 可 能 追究 法 律 
责任 。 





柳 飞 

码 农 ， 毕 业 于 中 国 科学 技 
术 大 学 和 复旦 大 学 ， 现 就 
职 于 喜马拉雅 FM， 从 事 运 
车 系统 研发 。 马 拉 松 理性 爱好 者 ， 赛 首 
急救 志愿 者 和 急救 免 。 中 度 拖延 定 患 








陆 明 刚 

毕业 于 四 川 大 学 ， 目 前 在 
图 EMC 中 国 卓越 研发 集团 任 
”首席 工程 师 ， 曾 任 趋势 科 
技 中 国 软件 研发 中 心 技术 经 理 ， 在 信息 
科学 和 工程 领域 有 十 余年 的 实践 和 研究 
经 验 ， 拥 有 多 项 中 国 及 美国 专利 。 关 注 
JVM 性 能 调 优 和 大 数据 及 其 实践 ， 喜 欢 
挖掘 技术 背后 的 内 幕 并 乐此不疲 。 


减 秀 涛 

中 国 科 学 院 计 算 技 术 研 究 
所 硕士 ， 对 编程 语言 、 虚 
拟 机 等 领域 有 浓厚 兴趣 。 
先后 从 事 过 游戏 服务 器 、 操 作 系 统 方面 
的 开发 ， 现 于 InfoQ 任 QCon 大 会 主编 ， 
推动 软件 开发 领域 内 实践 经 验 的 传播 。 
业余 喜欢 读书 、 翻 译 ， 有 《C++ API 设 
计 》《Groovy 程 序 设计 》 等 译作 。 期 待 
与 读者 通过 微 博 〈(@ 减 秀 涛 ) 或 微 信 公 
众 号 dev-news 联 系 。 








ER 图 录 答 启 设计 从 书 


Java 性 能 权威 指南 


Java Performance 
The Definitive Guide 





[ 美 ] Scott Oaks 著 
柳 飞 ” 陆 明 刚 ” 碱 秀 涛 译 


Beijing * Cambridge » Farnham » Koln »。 Sebastopol « Tokyo 
O’Reilly Media, Inc. 授 权 人 民 邮 电 出 版 社 出 版 


人 民 邮 电 出 版 社 
北 京 


图 书 在 版 编目 (C I P ) 数据 























Java 性 能 权威 指南 /( 美 ) 奥 克 斯 (0aks, S.) 车 ; 
柳 飞 ， 陆 明 刚 ， 碱 秀 涛 译 . -- 北京 : 人 民 邮 电 出 版 社 ， 
2016. 3 

(图 灵 程 序 设计 从 书 ) 








ISBN 978-7-115-41376-5 


I，O@J… 工 ， 四 奥 … 四 柳 … @ 陆 … @ 臧 … II 人 
JAVA 语言 一 程序 设计 IV. QTP312 


到 版 本 图 书馆 CIP 数 据 核 字 (2016) 第 003957 号 






































内 容 提 要 
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可 能 很 多 Java 程序 员 都 会 觉得 解决 性 能 问题 是 一 件 特别 昔 恼 、 特 别 让 人 抓 狂 的 事情 ， 因 








推荐 序 








为 系统 的 各 个 层面 的 问题 都 会 导致 性 能 问题 。JVM 优化 是 个 老生 常 谈 的 话题 ， 也 是 程序 














员 面 试 容易 遇 到 的 高 频 问题 ， 貌 似 每 个 程序 员 或 者 面试 








吉 都 知道 那么 一 点 儿 ， 没 有 什么 新 


意 。 市面 上 JVM 性 能 方面 的 书 也 有 几 本 ， 但 是 真正 把 这 些 知 识 整 理 成 书 ， 能 够 做 到 紧 跟 
时 代步 伐 的 并 不 多 。 很 多 资料 都 忽略 了 JVM 最 近 几 年 的 发 展 和 进步 ， 这 样 我 们 就 无 法 发 
挥 JVM 那些 最 激动 人 心 的 新 特性 ， 也 会 使 自己 像 一 个 生活 在 21 世纪 的 原始 人 。 很 多 原来 
的 优化 方法 都 已 失去 了 存在 的 意义 ， 但 还 是 被 大 家 不 断 地 讨论 。 片 面 、 



































零散 、 落 伍 的 知识 


在 JVM 领域 大 行 其 道 ， 要 命 的 是 其 中 还 有 很 多 是 错误 的 。 当 然 ， 我 们 并 不 能 怪 那 些 多 年 


前 的 作者 ， 希 望 他 们 能 够 预知 今天 JVM 的 进展 。 但 如 果 想 再 找 一 本 能 跟 得 上 时 代步 伐 的 





JVM 调 优 的 书 的话 ， 貌 似 当 下 只 有 这 本 





台 。 这 就 是 我 推荐 此 书 的 理由 : 全 面 、 实 用 、 紧 跟 


时 代 。 本 书 很 多 章节 都 是 我 非常 喜欢 的 ， 比 如 关于 JMC 的 。 相 信 很 多 有 多 年 JVM 调 优 经 
验 的 人 也 未 必 听 说 过 JMC， 但 不 得 不 说 ， 每 个 遇见 JMC 的 人 都 如 获 至 宝 。 

本 书 完整 地 介绍 了 JVM 调 优 需 要 的 方方面面 ， 而 不 仅仅 限于 那些 诡异 参数 的 简单 说 明 ， 
非常 具有 实用 性 和 系统 性 。 值 得 一 提 的 是 ， 几 位 译 者 都 是 在 这 个 领域 非常 资深 的 专家 ， 翻 











译 水 平 上 乘 。 我 觉得 每 个 对 JVM 感 兴趣 的 程序 员 都 应 该 看 看 这 本 书 。 











程 显 峰 


Kage 技术 咨询 合伙 人 


这 是 一 部 关于 Java 性 能 调 优 的 卓越 作品 。 该 书 涉及 性 能 测试 、 性 能 分 析 、 性 能 调 优 的 原 
理 、 方 法 、 工 具 等 诸多 方面 ， 书 中 最 新 的 JVM 和 体系 结构 的 相关 知识 可 以 帮助 我 们 更 好 
地 理解 Java， 同 时 该 书 又 包含 了 许多 非常 工程 性 的 经 验 ， 比 如 多 线程 、 数 据 库 、 序 列 化 以 
工程 师 很 有 帮助 ， 也 为 其 他 开发 人 员 及 性 能 调 优 人 




















及 Java API 等 ， 这 些 经 验 不 仅 对 Java 
































员 提 供 了 问题 解决 思路 和 方法 上 的 启迪 。 借 助 这 本 书 ， 我 们 可 以 从 Java 纷繁 复杂 的 性 能 调 








优 参数 中 解脱 出 来 ， 看 到 背后 的 动机 和 有 











[缘由 ， 从 而 获得 对 性 能 的 不 一 李 


Google 资深 软 





的 理解 。 
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牛 工程 师 ， 技 术 经 理 
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起 初 O'Reilly 公司 让 我 写 一 本 关于 Java 性 能 调 优 的 书 时 ， 我 还 不 确定 是 否 值得 写 。 我 在 
想 ， 难 道 Java 性 能 调 优 我 们 做 得 还 不 够 吗 ? 事实 上， 虽然 我 日 常 的 基本 工作 是 Java (和 其 
他 ) 应 用 程序 的 性 能 调 优 ， 但 我 宁愿 将 大 多 数 时 间 都 花 在 提高 应 用 程序 的 算法 效率 以 及 处 
里 外 部 系统 的 性 能 瓶 有 开 上 ， 而 不 是 直接 进行 Java 自身 性 能 的 调 优 。 


但 转念 一 想 ， 我 不 禁 哑 然 失 笑 ( 像 往常 一 样 )。 的 确 ， 我 的 大 量 时 间 都 花 在 了 端 到 端的 系 
统 性 能 调 优 上 ， 有 时 会 发 现 那些 原本 可 以 用 O(log N) 却 用 了 O(n ) 算法 的 代码 。 不 过 这 也 
说 明 ， 我 每 天 考虑 的 都 是 GC 调 优 、JVM 编译 器 的 性 能 调 优 ， 或 者 是 如 何 使 Java EE API 
的 性 能 发 挥 到 极致 。 


说 这 些 并 不 是 想 要 抹杀 过 去 15 年 里 Java 和 JVM 在 性 能 上 取得 的 巨大 进步 。1990 年 代 
晚期 我 在 Sun 公司 担当 Java 布道 师 ， 当 时 仅 有 的 真正 意义 上 的 “基准 测试 ”工具 来 自 
Pendragon 软件 的 CaffeineMark 2.0。 由 于 种 种 原因 ， 该 基准 测试 工具 设计 上 的 不 足 很 快 
就 限制 了 它 的 价值 ， 然 而 在 那个 年 代 ， 我 们 总 喜欢 告诉 所 有 人 ， 依 据 这 个 基准 测试 ，Java 
1.1.8 的 性 能 比 Java 1.0 快 八 倍 。 这 并 非 竺 人 听闻 一 一 Java 1.1.8 已 经 有 了 真正 的 即时 编译 
器 ， 而 Java 1.0 差不多 完全 是 解释 型 的 。 


之 后 ，Java 标准 委员 会 开始 制定 更 严谨 的 基准 测试 ，Java 的 性 能 测试 开始 围绕 这 些 基准 测 
试 展开 。 最 终 ，JVM 的 所 有 领域 一 一 垃圾 收集 、 编 译 器 和 API 都 获得 了 长 足 的 进步 。 这 个 
过 程 一 直 延 续 到 今天 ， 而 关于 性 能 的 一 个 重要 事实 是 ， 调 优 正 变 得 越 来 越 艰难 。 引 入 即时 
编译 器 后 所 获得 的 八 倍 性 能 提升 ， 只 是 一 个 简单 的 工程 问题 ， 即 使 编译 器 持续 改进 ， 我 们 
也 无 法 再 次 看 到 如 此 巨大 的 改进 了 。 并 行 化 垃圾 收集 也 曾 极 大 地 提升 过 性 能 ， 但 最 近 的 变 
化 则 是 渐进 式 的 。 

这 是 典型 的 应 用 发 展 过 程 (JVM 本 身 也 是 另外 一 个 应 用 ) : 在 项 目 初期 ， 很 容易 找到 架构 
上 的 改进 点 (或 代码 缺陷 )， 一 旦 找到 就 能 极 大 改善 性 能 。 而 在 成 熟 应 用 中 ， 要 找到 这 样 
的 性 能 改进 点 则 很 罕见 。 

起 初 我 觉得 ， 从 很 大 程度 上 说 ，Java 性 能 调 优 都 已 经 工程 化 了 ， 但 有 几 件 事情 让 我 相信 我 
错 了 。 首 先 ， 我 每 天 在 特定 环境 下 运行 JVM 时 ， 都 会 遇 到 许多 这 样 或 那样 的 问题 。 新 工 
程 师 源源 不 断 地 进入 Java 领域 。 在 特定 的 领域 ，JVM 的 行为 仍然 相当 复杂 ， 因 此 有 份 描 
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述 它 如 何 运作 的 指南 很 有 必要 。 其 次 ， 现 在 的 计算 环境 发 生 了 变化 ， 已 经 影响 到 了 工程 师 
们 所 面临 的 性 能 问题 。 


在 过 去 几 年 中 ， 性 能 关注 点 有 了 分 歧 。 一 方面 ， 有 大 量 内 存 堆 可 运行 JVM 的 大 机 器 现在 
已 经 很 普遍 了 。 为 了 应 对 这 样 的 变化 ，JVM 也 有 了 新 的 垃圾 收集 器 (G1) 这 项 新 技 
术 相 比 传统 的 收集 器 更 需要 手工 调 优 。 同 时 ， 云 计算 又 提升 了 单 CPU 的 小 机 器 的 重要 性 : 
你 可 以 从 Oracle、Amazon 或 其 他 公司 以 非常 便宜 的 价格 租用 单 CPU 机 器 ， 运 行 小 的 应 用 
服务 器 。( 你 获得 的 并 不 是 真 的 单 CPU 机 器 ， 而 是 一 台 巨 大 机 器 上 的 一 个 虚拟 OS 镜像 ， 
但 虚拟 OS 被 限制 为 使 用 单个 CPU。 从 Java 角度 看 ， 它 和 单 CPU 的 机 器 相同 。) 在 这 些 环 
境 中 ， 正 确 管理 小 量 内 存 变 得 非常 重要 。 


Java 平台 也 在 持续 演变 。Java 的 每 个 新 版 本 都 会 提供 新 的 语言 特性 和 新 的 API， 这 些 特 性 
和 API 并 不 总 是 为 了 提高 应 用 性 能 ， 也 是 为 了 改善 开发 人 员 的 生产 率 。 语 言 特 性 运用 得 
好 ， 应 用 的 运行 就 会 变 得 轻快 ， 反 之 则 缓慢 笨重 。 男 外 ， 平台 的 演化 也 带 来 了 一 些 重要 的 
性 能 课题 : 毫 无 疑问 ， 程 序 间 用 JSON 交换 信息 要 比 用 高 度 优化 的 私有 协议 更 容易 。 市 约 
开发 人 员 的 时 间 就 是 巨大 的 收益 一 一 但 真正 的 目的 是 确保 生产 率 提升 的 同时 ， 性 能 也 能 提 
升 (至 少 是 两 者 之 间 取 得 平衡 )。 


读者 对 象 


本 书 适合 那些 渴望 深入 了 解 JVM 和 Java API 性 能 各 个 方面 的 性 能 调 优 工程 师 和 开发 者 。 

假如 你 想 快速 修复 性 能 问题 ， 比 如 网 站 周一 早上 要 上 线 ， 而 现在 已 经 是 周 日 深夜 了， 那么 
本 书 可 能 不 适合 你 。 

如 果 你 是 性 能 分 析 的 新 手 ， 正 要 开始 进行 Java 的 性 能 分 析 ， 那 么 本 书 会 对 你 有 所 帮助 。 我 
的 目的 主要 是 为 新 工程 师 提供 足够 多 的 信息 和 上 下 文 ， 以 便 使 他 们 明白 如 何 将 基本 的 性 能 
调 优 原则 运用 到 Java 应 用 中 去 。 然 而 ， 系 统 分 析 的 范畴 非常 广阔 ， 已 经 有 大 量 的 优秀 资源 
(那些 原则 当然 也 适用 于 Java)， 从 这 个 意义 上 来 说 ,希望 本 书 也 能 成 为 它们 的 有 益 补 充 。 


不 过 从 根本 上 说 ， 想 让 Java 运行 得 飞快 ， 就 得 深入 理解 JVM (以 及 Java API) 的 实际 工 
作 原 理 。 有 数 以 百 计 的 Java 性 能 调 优 参数 ， 而 JVM 调 优 并 不 像 上 晕 猫 碰 死 耗子 那样 ， 调 一 
下 再 看 看 是 否 奏 效 。 与 之 相反 ， 我 的 目的 是 提供 更 为 详尽 的 JVM 和 API 工作 原理 ， 以 期 
在 你 理解 它们 如 何 工作 的 原理 之 后 ， 能 理解 应 用 的 某 些 行 为 为 何 糟 糕 。 理 解 了 这 些 之 后 ， 
排除 那些 性 能 低下 、 令 人 不 快 的 行为 就 会 变 成 简单 (至少 是 比 以 前 更 简单 ) 的 任务 。 

Java 性 能 调 优 工作 还 有 一 个 有 趣 的 方面 ， 就 是 开发 人 员 的 背景 和 性 能 调 优 或 QA 组 人 员 的 
背景 常常 有 很 大 差别 。 我 认识 一 些 开 发 人 员 ， 他 们 可 以 记 住 成 千 上 万 个 令 人 费解 的 很 少 使 
用 的 Java API 方法 签名 ， 但 他 们 对 -xmn 的 含义 却 没 有 什么 概念 。 我 也 认识 一 些 测试 工程 
师 ， 他 们 可 以 通过 设置 垃圾 收集 器 的 各 种 标志 来 榨取 最 后 一 滴 性 能 ， 但 他 们 却 很 少 有 人 能 
用 Java 写 出 像样 的 “Hello, World”。 

Java 性 能 调 优 覆盖 这 两 个 领域 : 编译 器 和 垃圾 收集 器 等 的 调 优 参 数 ， 以 及 API 的 最 佳 实 
践 。 所 以 ， 我 假定 你 对 如 何 编写 Java 程序 有 很 好 的 理解 。 即 便 你 主要 的 兴趣 不 是 在 Java 
程 ， 我 仍然 会 花 一 点 时 间 讨 论 编程 ， 包 括 例 子 中 包含 大 量 数据 的 示例 程序 。 
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然而 ， 如 果 你 的 主要 兴趣 是 JVM 自身 的 性 能 调 优 一 一 意思 是 不 用 更 改 任 何 代码 而 改变 
JVM 的 行为 ， 那 么 本 书 的 大 量 章节 都 对 你 有 用 。 可 以 随意 跳 过 代码 部 分 ， 而 关 广 你 所 感 兴 
趣 的 领域 。 也 许 你 会 顺便 为 Java 应 用 如 何 影响 JVM 性 能 提出 一 些 真知 灼 见 ， 并 向 开发 人 
员 提 出 更 改建 议 ， 以 便 让 你 的 性 能 调 优 测试 工作 更 加 如 鱼 得 水 。 


排版 约定 
本 书 使 用 的 排版 约定 如 下 。 
。 楷体 
表示 新 术语 。 
。 等 宽 字 体 (constant width) 
表示 程序 片段 ， 以 及 正文 中 出 现 的 变量 、 函 数 名 、 数 据 库 、 数 据 类 型 、 环 境 变 量 、 语 
名 和 关键 字 等 。 
。 等 宽 粗 体 (constant width bold) 
表示 应 该 由 用 户 输入 的 命令 或 其 他 文本 。 











。 等 宽 和 斜体 (constant width italic) 


表示 应 该 由 用 户 输入 的 值 或 根据 上 下 文 确 定 的 值 替换 的 文本 。 








这 个 图 标 代表 提示 或 建议 。 








这 个 图 标 代表 重要 说 明 。 





这 个 图 标 代表 警告 或 提醒 。 





使 用 代码 示例 


可 以 在 这 里 下 载 本 书 随 附 的 资料 〈 代 码 示例 、 练 习题 等 ) : https://github.com/ScottOaks/ 


JavaPerformanceTuning。 

















让 本 书 助 你 一 臂 之 力 。 也 许 你 需要 在 自己 的 程序 或 文档 中 用 到 本 书 中 的 代码 。 除 非 大 段 大 
段 地 使 用 ， 否 则 不 必 与 我 们 联系 取得 授权 。 例 如 ， 无 需 请 求 许可 ， 就 可 以 用 本 书 中 的 几 段 
代码 写成 一 个 程序 。 但 是 销售 或 者 发 布 O'Reilly 图 书 中 代码 的 光盘 则 必须 事先 获得 授权 。 
引用 书 中 的 代码 来 回答 问题 也 无 需 授权 。 将 大 段 的 示例 代码 整合 到 你 自己 的 产品 文档 中 则 
必须 经 过 许可 。 

使 用 我 们 的 代码 时 ， 和 希望 你 能 标明 它 的 出 处 ， 但 不 强求 。 出 处 一 般 包 括 书 名 、 作 者 、 出 
版 商 和 ISBN， 例 如 : Java Performance: The Definitive Guide by Scott Oaks (O’Reilly, 2014). 
Copyright by Scott Oaks, 978-1-449-35845-7。 


如 果 还 有 关于 使 用 代码 的 未 尽 事宜 ， 可 以 随时 与 我 们 联系 : permissions@oreilly.com。 


























Safari? Books Online 


Safari Books Online (http:/www.safaribooksonline.com) 是 应 需 
Sa fa rl 而 变 的 数字 图 书馆 。 它 同时 以 图 书 和 视频 的 形式 出 版 世界 顶级 
Bo Online* ”技术 和 商务 作家 的 专业 作品 。 

Safari Books Online 是 技术 专家 、 软 件 开 发 人 员 、Web 设计 师 、 商 务 人 士 和 创意 人 士 开 展 
调研 、 解 决 问题 、 学 习 和 认证 培训 的 第 一 手 资料 。 

对 于 组 织 团体 、 政 府 机 构 和 个 人 ，Safari Books Online 提供 各 种 产品 组 合 和 灵活 的 定 
价 策略 。 用 户 可 通过 一 个 功能 完备 的 数据 库 检 索 系 统 访问 O'Reilly Media、Prentice 
Hall Professional、Addison-Wesley Professional、Microsoft Press、Sams、Que、Peachpit 
































Press、 Focal Press、Cisco Press、John Wiley & Sons、 Syngress、 Morgan Kaufmann、IBM 
Redbooks、 Packt、Adobe Press、FT Press、Apress、Manning、New Riders、McGraw-Hill、 
Jones 区 Bartlett、Course Technology 以 及 其 他 儿 十 家 出 版 社 的 上 千 种 图 书 、 培 训 视 频 和 正 
式 出 版 之 前 的 书稿 。 要 了 解 Safari Books Online 的 更 多 信息 ， 我 们 网 上 见 。 


联系 我 们 


请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 
美国 : 
O’Reilly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 
中 国 : 
北京 市 西城 区 西直门 南大 街 2 号 成 铭 大 厦 C 座 807 室 (100035) 
奥 莱 利 技术 咨询 (北京 ) 有 限 公司 
O’Reilly 的 每 一 本 书 都 有 专属 网 页 ， 你 可 以 在 那儿 找到 本 书 的 相关 信息 ， 包 括 勘误 表 、 示 
例 代码 以 及 其 他 信息 。 本 书 的 网 站 地 址 是 : 



































http://oreil.ly/java-performance-tdg。 
对 于 本 书 的 评论 和 技术 性 问题 ， 请 发 送 电 子 邮件 到 ; bookquestions@oreilly.com 
要 了 解 更 多 O'Reilly 图 书 、 培 训 课 程 、 会 议和 新 闻 的 信息 ， 请 访问 以 下 网 站 : 


http://www.oreilly.com 




















我 们 在 Facebook 的 地 址 如 下 : http://facebook.com/oreilly 
请 关注 我 们 的 Twitter 动态 : http://twitter.com/oreillymedia 
我 们 的 YouTube 视频 地 址 如 下 : http:/www.youtube.com/oreillymedia 


致谢 

感谢 在 我 写 这 本 书 时 所 有 帮助 过 我 的 人 。 从 各 方面 来 看 ， 这 本 书 汇集 了 我 过 去 15 年 来 在 
Sun 公司 和 Oracle 公司 的 Java 性 能 调 优 小 组 中 的 所 学 所 知 。 如 果 将 为 这 本 书 提出 真知 灼 见 
的 人 都 列 出 来 的 话 ， 会 是 一 份 长 长 的 列表 。 感 谢 在 那 段 时 间 与 我 一 同 工 作 的 工程 师 们 ， 特 
别 是 在 那些 年 里 耐心 回答 我 铺天盖地 的 问题 的 人 们 。 

我 要 特别 感谢 Stanley Guan、Azeem Jiva、Kim LiChong、Deep Singh、Martijn Verburg 和 
Edward Yue Shung Wong， 感 谢 他 们 拨 元 审阅 本 书 的 初稿 ， 感 谢 他 们 提供 的 宝贵 意见 。 虽 
然 本 书 因为 他 们 的 建议 而 完善 了 许多 ， 但 我 相信 错误 仍然 在 所 难免 。 

O"Reilly 的 工作 人 员 总 是 那么 乐于 助人 ， 感 谢 我 的 编辑 Meg Blanchette， 感 谢 你 在 整个 写作 
过 程 中 的 鼓励 。 最 后 ， 衷 心 感谢 我 的 丈夫 James 给 予 我 在 为 书 而 抓 狂 的 漫漫 长 夜里 的 悉心 
陪伴 ， 以 及 周末 晚餐 。 
















































































了 





这 是 一 本 关于 Java 性 能 调 优 科 学 和 艺术 的 书 。 
说 性 能 调 优 是 门 科学 ， 这 并 不 令 人 意外 ;性 能 调 优 涉及 大 量 数字 、 检 测 和 分 析 工 作 。 性 能 
调 优 工程 师 大 多 具有 科学 背景 ， 只 有 基于 严谨 的 科学 理论 才能 将 性 能 发 挥 到 极致 。 

那 它 的 艺术 性 呢 ?” 其 实 性 能 调 优 是 科学 与 艺术 的 结合 体 这 一 说 法 并 不 新 鲜 ， 但 我 们 探讨 性 
能 时 却 很 少 能 清楚 地 意识 到 这 一 点 。 从 某 种 程度 上 说 ， 这 可 能 是 因为 我 们 所 受 的 教育 训练 
并 不 容易 产生 “艺术 ”的 思想 火花 。 


说 它 是 艺术 的 部 分 原因 是 ， 对 一 些 人 来 说 ， 艺 术 从 根本 上 就 是 建立 在 知识 和 经 验 的 基础 上 
的 。 据 说 ， 是 够 先进 的 技术 与 魔术 无 异 ， 例 如 对 于 圆桌 骑士 而 言 ， 使 用 手机 毫 无 疑问 就 是 
一 种 魔法 。 与 此 类 似 ， 优 秀 性 能 调 优 工程 师 的 工作 就 像 是 艺术 ， 而 这 艺术 正 是 源 于 深厚 的 
知识 、 丰 富 的 经 验 和 人 敏锐 的 直觉 。 

本 书 的 侧重 点 不 在 于 三 者 中 的 经 验 和 直觉 ， 而 是 在 拓展 知识 的 深度 。 日 积 月 累 ， 这 些 知识 
将 有 助 于 提升 你 的 技能 ， 有 助 于 你 成 为 一 名 优秀 的 Java 性 能 调 优 工程 师 。 本 书 还 有 助 于 你 
深入 理解 Java 平台 性 能 的 各 个 方面 。 

本 书 涉及 的 知识 主要 分 两 大 类 。 首 先是 如 何 对 Java 虚拟 机 (Java Virtual Machine, JVM) 
自身 的 性 能 进行 调 优 ， 即 如 何 通 过 JVM 的 配置 来 影响 程序 的 各 种 性 能 指标 。JVM 性 能 调 
优 的 过 程 实际 上 与 C++ 程序 员 在 编译 时 通过 测试 选择 编译 参数 ， 以 及 PHP 码 农 在 php.ini 
文件 中 选择 适当 变量 等 过 程 非常 类 似 ， 但 对 于 那些 即便 有 其 他 语言 经 验 的 Java 开发 者 来 
说 ， 调 优 过 程 仍 然 不 那么 令 人 愉快 。 

其 次 是 理解 Java 平台 的 特性 对 性 能 的 影响 。 注 意 ， 此 处 的 平台 既 指 Java 语言 (例如 线程 
和 同步 )， 也 指 Java 标准 API (例如 XML 解析 性 能 )。 虽 然 Java 语言 和 Java API 完全 不 是 
一 回 事 ， 但 本 书 并 不 作 严格 区 分 ， 这 两 方面 的 内 容 都 会 涵盖 。 






























































JVM 自身 的 性 能 很 大 程度 上 取决 于 调 优 标志 ， 而 Java 平台 的 性 能 则 更 多 由 在 应 用 代码 中 
采用 最 佳 实践 决定 。 在 一 个 开发 团队 中 ， 开 发 人 员 编 写 代 码 ， 性 能 组 负责 性 能 测试 。 编 码 
和 调 优 常常 被 认为 是 两 个 不 同 的 专业 领域 : 性 能 调 优 工程 师 只 是 竭力 将 JVM 的 性 能 发 挥 
到 极致 ， 而 开发 人 员 只 关心 他 们 的 代码 逻辑 是 否 正 确 。 这 种 区 分 没有 什么 意义 。 任 何 从 寻 
Java 相关 工作 的 人 都 应 该 熟 说 代码 在 JVM 中 的 行为 ， 以 及 如 何 调 优 才能 提升 性 能 。 对 专 
业 知 识 的 全 面 掌握 能 让 你 的 工作 更 具 艺 术 气息 。 


1.1 概述 


首先 是 通 览 : 第 2 章 讲述 了 测试 Java 应 用 的 通用 方法 ， 还 包括 Java 基准 测试 中 的 陷阱 。 
通过 可 视 化 的 性 能 分 析 ， 我 们 可 以 了 解 应 用 正在 做 什么 ， 所 以 第 3 章 概要 介绍 了 监控 Java 
应 用 的 一 些 工 具 。 

接 下 来 就 是 深入 性 能 调 优 了 ， 首 先 关 注 的 是 常见 的 调 优 主题 : JIT 编译 (第 4 章 ) 和 垃圾 
收集 (第 5 章 和 第 6 章 )。 剩 余 各 章 关注 的 是 Java 平台 各 方面 的 最 佳 实践 : Java 堆 内 存 的 
使 用 (第 7 章 ) ， 本 地 内 存 的 使 用 (第 8 章 ) ， 线 程 性 能 的 调 优 (第 9 章 ) ，Java 企业 版 API 
(第 10 章 )，JPA 和 JDBC (第 11 章 )， 以 及 一 些 通用 的 Java SE API 技 巧 (第 12 章 )。 


附录 A 列 出 了 本 书 中 所 有 的 调 优 标 志 ， 并 给 出 了 解释 这 些 标志 的 交叉 引用 章节 。 


1.2 平台 版 本 约定 


本 书 基于 Oracle HotSpot JVM 和 Java Standard Edition (Java SE) 7 和 8。 在 发 布 版 之 间 ， 
Oracle 更 新 会 定期 发 布 更 新 版 本 。 多 数 时 候 ， 更 新 版 本 只 修订 bug， 不 会 加 入 语言 新 特性 
或 者 变更 关键 功能 ， 但 会 更 改 调 优 标志 的 默认 值 。Oracle 很 可 能 将 在 本 书 出 版 之 后 提供 更 
新 版 本 ,当前 版 本 为 Java 7 update 40 和 Java 8 (迄今 为 止 ,还 没有 Java 8 的 更 新 版 本 ) :。 如 
果 更 新 版 本 对 JVM 的 行为 做 了 重大 修订 ， 则 会 命名 如 下 : 7u6 (Java 7 update 6)。 


本 书 关于 Java 企业 版 (JavaEE) 的 内 容 是 基于 Java EE 7。 


虽然 当前 版 本 的 Java 构建 于 之 前 的 发 布 版 ， 但 本 书 并 不 涉及 老 版 本 Java 的 性 能 调 优 。 对 
这 本 讲述 性 能 调 优 的 书 而 言 ，Java 7 是 一 个 很 好 的 起 始点 ， 因 为 Java 7 引入 了 大 量 的 性 能 
新 特性 和 优化 。 其 中 最 主要 的 是 称 为 G1 的 垃圾 收集 (GC) 算法 ( 老 版 本 的 Java 包含 了 
G1 的 试验 版 ， 但 直至 Java 7044，G1 才 真 正 可 用 于 生产 环境 ) 。Java 7 也 包括 许多 与 性 能 相 
关 的 新 特性 和 增强 ， 可 以 让 我 们 更 清楚 地 了 解 Java 应 用 的 运转 。Java 8 再 接 再 万 ， 平 台 得 
到 了 进一步 增强 (例如 引入 了 lambda 表达 式 )。Java 8 自身 的 性 能 得 到 了 巨大 提升 ， 在 好 
儿 个 关键 性 领域 都 大 大 超过 了 Java 7。 

JVM 还 有 其 他 实现 。Oracle 自己 的 JRockit JVM (支持 Java SE 6)。IBM 提供 了 自己 的 
Java 兼容 实现 (包括 Java 7 版 本 )。 还 有 许多 其 他 公司 得 到 许可 从 而 可 以 改进 Oracle 的 
Java 技术 。 
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注 1: 现在 为 Java7update 55，Java 8 update 5。 一 一 译 者 注 
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Oracle 的 商业 版 JVM 
Java 和 JVM 都 是 开源 的 ， 任 何 想 参 与 Java 开发 的 人 都 可 以 加 入 项 目 : http://openjdk. 
java.net。 即 便 你 不 打算 参与 开发 ， 也 可 以 从 上 述 网 站 免费 下 载 源 代码 。 本 书 讨 论 的 所 
有 内 容 基 本 上 都 是 基于 开源 版 的 Java。 
Oracle 也有 商业 版 的 Java， 可 以 通过 支持 合同 获得 。 它 基于 标准 开源 版 本 的 Java 平 
台 ， 但 包括 了 一 些 开 源 版 中 所 没有 的 特性 。 商 业 版 JVM 中 和 性 能 密切 相关 的 一 个 特性 
就 是 Java 飞行 记录 器 (Java Flight Recorder，JFR， 参 见 3.4.1 节 ) 。 


除非 特别 说 明 ， 本 书 所 有 的 内 容 都 适用 于 开源 版 的 Java。 




















虽然 只 有 通过 兼容 性 测试 的 平台 才能 使 用 Java 的 名 称 ， 但 本 书 不 会 总 是 围绕 兼容 性 展开 
讨论 。 那 些 调 优 标志 尤其 如 此 。 所 有 的 JVM 实现 都 有 一 个 或 多 个 垃圾 收集 器 ， 但 每 个 供 
应 商 所 提供 的 GC 实现 ， 其 调 优 标志 都 是 产品 特定 的 。 所 以 本 书 所 讲 的 概念 可 适用 于 所 有 
Java 实现 ， 但 具体 的 调 优 标志 和 建议 仅 适 用 于 Oracle 的 标准 (基于 HotSpot 的 ) JVM。 
用 较 早 版 本 的 HotSpot JVM 时 要 注意 ， 标 志 及 其 默认 值 在 发 布 版 之 间 可 能 会 发 生变 化 。 本 
书 只 涵盖 Java 7 (直到 7u40) 和 Java 8 ( 仅 首 个 版 本 ) ， 而 不 是 试图 穷尽 迄今 为 止 的 各 个 版 
本 。 以 后 的 版 本 〈 例 如 ， 假 定 是 7u60) 可 能 会 对 这 些 信息 做 少许 改动 。 重 要 的 变更 请 查阅 
发 布 说 明 。 

从 API 层面 来 看 ， 不 同 JVM 实现 之 间 的 兼容 性 很 高 ， 即 便 特 定 类 在 Oracle HotSpot Java 
SE (或 EE) 和 其 他 平台 上 的 实现 方式 也 有 细微 的 不 同 。 类 的 功能 必须 等 价 ， 但 具体 实现 
可 以 变更 。 所 幸 这 些 并 不 多 见 ， 不 会 对 性 能 产生 重大 影响 。 

对 于 本 书 的 剩余 部 分 ， 术 语 Java 和 JVM 应 理解 为 特 指 Oracle HotSpot 的 实现 。 严 格 来 说 ， 
“JVM 首次 执行 时 不 会 进行 代码 编译 ”的 说 法 并 不 正确 ， 因 为 有 些 Java 的 实现 在 首次 执行 
时 会 编译 代码 。 但 这 种 略 写 比 到 处 写 (和 读 ) “Oracle HotSpot JVM……” 要 简便 得 多 。 


JVM 调 优 标 志 

除了 少数 例外 ，JVM 主要 接受 两 类 标志 : 布尔 标志 和 附带 参数 的 标志 。 

布尔 标志 采用 以 下 语法 : -XX:+FlagName 表示 开启 ，-XX: -FLagWame 表示 关闭 。 

附带 参数 的 标志 采用 以 下 语法 : -XX:FlagName=something， 表 示 将 标志 flagName 的 值 设置 
为 something。 其 中 something 通常 可 以 为 任意 值 。 例 如 -XX:NewRatio=NW， 表 示 NewRatio 
可 以 设置 为 任意 值 N (N 是 我 们 讨论 所 关注 的 重点 )。 

介绍 每 个 标志 时 ， 我 们 会 讨论 它 的 默认 值 。 默 认 值 的 选取 通常 综合 考虑 了 不 同 因素 : 运行 
JVM 的 物理 平台 ， 以 及 其 他 传 给 JVM 的 命令 行 参 数 。 如 有 疑问 ， 可 以 参考 3.2.1 节 所 介绍 
的 方法 ， 在 给 定 的 命令 行 上 ， 添 加 -XX:+Printflagsfinal (默认 为 false， 即 “关闭 ”) 就 
能 获得 具体 运行 环境 中 特定 标志 的 默认 值 。 基 于 环境 对 标志 进行 自动 调 优 的 过 程 称 为 自动 
优化 (Ergonomics)。 
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Client 和 Server 类 虚拟 机 
Java 的 自动 优化 前 提 是 机 器 被 分 为 “Client” 和 “Server”。 这 两 个 术语 直接 与 特定 平 
台 (参见 第 4 章 ) 上 的 默认 JVM 编译 器 相关 ， 它 们 也 设 定 了 默认 的 调 优 标志 。 例 如 ， 
机 器 类 别 决定 了 平台 默认 的 垃圾 收集 器 (参见 第 5 章 )。 
Microsoft Windows 上 运行 的 任何 32 位 JVM (无 论 机 器 上 CPU 的 个 数 是 多 少 )， 以 及 
单 CPU 机 器 (不 论 是 什么 操作 系统 ) 上 运行 的 任何 32 位 JVM， 都 是 Client 类 机 器 。 
所 有 其 他 机 器 (包括 所 有 64 位 JVM) 都 被 认为 是 Server 类 。 











从 Oracle 和 OpenJDK 站 点 下 载 的 JVM， 被 称 为 “产品 ”JVM。 需 要 生成 不 同 版 本 的 JVM 
时 ， 可 以 从 源 代 码 构建 : 调试 版 、 开 发 版 等 。 这 些 版 本 通 稼 有 更 多 的 特性 。 特 别 是 开发 
版 ,包含 了 大 量 的 调 优 标志 ， 开 发 人 员 可 以 尝试 与 JVM 各 种 算法 的 细节 打交道 。 不 过 本 
书 基 本 上 不 会 考虑 这 些 标志 。 


1.3 全 面 的 性 能 调 优 


本 书 关注 于 如 何以 最 佳 方式 利用 JVM 和 Java 平台 API， 让 程序 运行 得 更 快 。 但 除了 这 两 
点 ， 还 有 许多 外 在 的 因素 影响 性 能 。 书 中 这 些 因 素 时 不 时 会 出 现 ， 但 因为 它们 不 只 影响 
Java， 所 以 不 会 深入 讨论 。JVM 和 Java 平台 的 性 能 只 是 高 性 能 主题 中 的 一 小 部 分 。 
本 书 会 覆盖 一 些 外 部 因素 ， 这 些 因 素 的 重要 性 不 亚 于 Java 的 性 能 调 优 。 本 书 中 基于 Java 
的 调 优 方法 可 以 和 这 些 因素 相互 补充 ， 但 这 些 因素 多 数 已 经 超过 了 本 书 讨论 的 范围 。 


1.3.1 编写 更 好 的 算法 


Java 的 许多 细节 和 性 能 标志 都 可 以 影响 应 用 的 性 能 ， 只 不 过 从 来 都 没有 一 个 叫 
-XX:+RunReaLLyFast 的 神奇 标志 。 


归根 结 底 ， 应 用 的 性 能 取决 于 它 的 代码 如 何 编 写 。 例 如 ， 如 果 程 序 循环 遍历 数组 中 的 所 
有 元 素 ，JVM 就 可 以 优化 数组 的 边界 检查 ， 使 循环 更 快 ， 展 开 循环 能 提供 额外 的 加 速 。 
但 如 果 循 环 是 为 了 找到 特定 元 素 ， 那 目前 还 没有 什么 优化 的 办 法 ， 使 得 遍历 数组 和 采用 
HashMap 的 版 本 一 样 快 。 


需要 更 高 性 能 时 ， 算 法 是 否 优秀 就 是 重 中 之 重 了 。 


1.3.2 编写 更 少 的 代码 


有 些 人 写 代 码 是 为 钱 ， 有 些 是 为 乐趣 ， 还 有 些 人 将 代码 回馈 社区 ， 但 不 管 怎样 ， 大 家 都 是 
码 农 (或 者 在 写 程序 的 团队 里 工作 )。 很 难 想象 ， 我 们 对 项 目的 贡献 是 少 写 代码 ， 因 为 仍 
然 有 管理 者 通过 所 写 的 代码 量 来 评估 开发 人 员 的 绩效 。 

我 能 理解 这 种 想法 ， 不 过 这 种 想法 与 现实 并 不 吻合 。 同 样 是 正确 的 程序 ， 小 程序 运行 起 来 
要 比 大 程序 快 。 对 所 有 的 计算 机 程序 来 说 都 是 如 此 ，Java 程序 自然 也 不 例外 。 要 编译 的 代 
码 越 多 ， 等 待 程序 启动 所 耗费 的 时 间 就 越 长， 要 创建 和 销毁 的 对 象 越 多 ， 垃 圾 收集 的 工作 
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量 就 越 大 ， 要 分 配 和 持 有 的 对 象 越 多 ，GC 的 周期 就 越 长 ， 要 从 磁盘 装载 进 JVM 的 类 越 
多 ,程序 启动 所 花费 的 时 间 就 越 长 ， 要 执行 的 代码 越 多 ， 机 器 硬件 缓存 的 效率 就 越 低 ， 而 
执行 的 代码 越 多 ， 人 花费 的 时 间 就 越 长 。 





无 法 取胜 的 战争 
与 直觉 相反 (和 令 人 温 责 ) 的 是 ， 所 有 应 用 的 性 能 都 会 随 着 时 间 ， 即 应 用 新 版 本 的 发 
布 而 降低 。 但 由 于 硬件 的 改善 使 得 新 程序 的 运行 速度 可 以 被 接受 ， 所 以 通常 都 不 会 有 
人 注意 到 性 能 上 的 差异 。 


想象 一 下 ， 在 曾经 运行 Windows 95 的 机 器 上 运行 Windows Aero 界面 ， 会 是 什么 样 
子 ? 我 以 前 喜欢 Mac Quadra 950， 但 它 无 法 运行 Mac OS X (如 果真 这 么 做 了 ， 它 将 
比 Mac OS 7.5 慢 许 多 许多 )。 从 更 小 的 层次 上 看 ，Firefox 23.0 比 Firefox 22.0 快 ， 但 它 
们 之 间 的 版 本 差别 很 小 。 具 有 按 tab 页 浏览 、 同 步 滚动 和 安全 特性 的 Firefox 要 比 之 前 
的 Mosaic 强大 ， 但 Mosaic 从 我 硬盘 里 装载 基本 HTML 文件 的 速度 比 Firefox 23.0 快 
50%。 


当然 ，Mosaic 几乎 不 能 从 任何 的 热门 网 站 上 装载 实际 的 URL， 所 以 不 太 可 能 把 
Mosaic 作为 主要 的 浏览 器 。 一 般 来 说 ， 特 别 是 在 两 个 小 版 本 之 间 ， 代 码 会 进行 优化 ， 
从 而 运行 得 更 快 。 性 能 优化 工程 师 应 该 注意 到 这 点 。 如 果 我 们 擅长 这 份 工作 ， 那 就 能 
赢得 这 场 战斗 。 这 是 美好 而 有 意义 的 事 。 我 认为 我 们 应 该 改善 现 有 应 用 的 性 能 。 


但 铁 一 般 的 事实 是 : 随 着 新 特性 的 添加 和 新 要 求 的 采纳 (为 了 与 对 手 竞 争 ) ， 程 序 会 越 
来 越 大 ， 越 来 越 慢 。 











我 把 这 总 结 为 “ 积 少 成 多 ”原则 。 开 发 人 员 总 争辩 说 ， 只 是 增加 了 很 小 的 功能 ， 压 根 就 不 
会 有 什么 时 间 损 耗 (特别 是 不 使 用 该 功能 的 时 候 )。 接 着 项 目 中 的 其 他 开发 人 员 也 同样 拍 
着 胸 且 保 证 ， 结 果 却 发 现 性 能 突然 下 降 了 好 几 个 百分点 。 下 次 发 布 的 时 候 又 重复 出 现 这 样 
的 情景 ， 而 此 时 程序 性 能 已 经 下 降 了 10%， 反 复 几 次 这 样 的 过 程 之 后 ， 性 能 测试 就 会 检测 
到 资源 瓶颈 一 一 内 存 使 用 达到 临界 点 、 代 码 缓存 溢出 等 情况 。 对 于 这 些 情形 ， 常 规 的 性 能 
测试 可 以 捕获 发 生 状 况 的 原因 ， 性 能 调 优 小 组 也 可 以 修正 主要 的 性 能 衰减 。 但 随 着 时 间 的 
推移 ， 小 衰减 积 少 成 多 ， 会 越 来 越 难以 修复 。 


我 并 不 是 在 鼓吹 永远 不 要 为 产品 增加 新 特性 或 者 新 代码 ， 很 显然 增强 程序 是 有 利 可 图 的 。 
但 你 得 小 心 权衡 ， 尽 可 能 提高 效能 。 


1.3.3 老 调 重 弹 的 过 早 优化 


“过 早 优化 ”一 词 公认 是 由 高 德 纳 发 明 的 ， 开 发 人 员 常 常 据 此 宣称 : 只 有 在 运行 时 才能 知 
道 代 码 的 性 能 有 多 要 紧 。 但 你 可 能 从 来 没 注 意 到 ， 完 整 的 原 话 是 “我 们 不 应 该 把 大 量 时 间 
都 耗费 在 那些 小 的 性 能 改进 上 ， 过 早 考 虑 优化 是 所 有 噩梦 的 根源 ”。 

这 句 名 言 的 重点 是 ， 最 终 你 应 该 编写 清晰 、 直 接 、 易 读 和 易 理 解 的 代码 。 这 里 的 “优化 ” 
应 该 理解 为 虽然 算法 和 设计 改变 了 复杂 程序 的 结构 ， 但 是 提供 了 更 好 的 性 能 。 那 些 真 正 的 
优化 最 好 留 到 以 后 ， 等 到 性 能 分 析 表 明 这 些 措施 有 巨大 收益 的 时 候 才 进行 。 







































































而 这 里 所 指 的 过 早 优化 ， 并 不 包括 避免 那些 已 经 知道 对 性 能 不 好 的 代码 结构 。 每 行 代 码 ， 
如 果 有 两 种 简单 、 直 接 的 编程 方式 ， 那 就 应 该 选择 性 能 更 好 的 那 种 。 


在 某 种 程度 上 ， 有 经 验 的 Java 开发 人 员 都 能 很 好 地 领会 到 这 点 (这 也 是 一 个 例证 ， 说 明 他 
们 日 积 月 累 而 掌握 了 调 优 艺术 )。 思 考 以 下 代码 : 


log.log(Level.FINE, "I am here, and the value of X is" 
+ calcX() + " and Y is " + calcY()); 


代码 包含 了 一 个 看 起 来 不 大 必要 的 字符 串 连 接 。 因 为 除非 日 志 级 别 很 高 ， 否 则 字符 串 的 信 
息 并 不 会 记录 到 日 志 中 ， 如 果 不 打印 日 志 消 息 ， 那 就 没 必 要 调用 caLcX() 和 calcY()。 有 经 
验 的 Java 开发 人 员 会 下 意识 地 避免 这 种 写法 。 有 些 IDE (例如 NetBeans) 会 在 代码 上 打 标 
记 并 建议 更 改 。( 然 而 没有 完美 的 工具 : NetBeans 会 在 字符 串 连接 操作 上 打 标 记 ， 却 不 会 
建议 去 掉 不 必要 的 方法 调用 。) 


像 这 样 的 日 志 代 码 会 更 好 : 


if (log.isLoggable(Level.FINE)) { 
Log.Log(LeveL.FINE， 
"I am here, and the value of X is {} and Y is 全"， 
new Object[]{calcX(), calcY()}); 




















} 


除非 启用 了 日 志 功能 ， 否 则 就 可 以 在 避免 字符 串 连 接 (消息 体 中 有 格式 化 字符 ， 不 会 提高 
性 能 ， 但 使 代码 更 清晰 ) 的 同时 ， 避 免 方法 调用 或 者 对 象 分 配 。 

这 样 写 出 来 的 代码 仍然 清晰 易 读 ， 与 原来 的 代码 相 比 ， 没 有 太 多 额外 工作 。 好 吧 ， 我 们 还 
是 需要 多 襄 儿 下 键盘 ， 多 加 一 行 逻辑 。 不 过 这 仍然 不 属于 应 该 避免 的 过 早 优 化 ， 它 是 好 码 
农 所 熟悉 的 选择 。 在 你 思考 如 何 写 代码 的 时 候 ， 请 不 要 生 据 硬 套 前 非 们 的 教条 。 

本 书 中 我 们 还 会 看 到 其 他 例子 ， 例 如 第 9 章 讨论 了 处 理 Vector 前 先进 行 循环 的 性 能 。 


1.3.4 其 他 : 数据 库 很 可 能 就 是 瓶颈 

如 果 你 开发 的 是 独立 运行 不 使 用 外 部 资源 的 Java 应 用 ， 性 能 就 (几乎 ) 只 与 应 用 本 身 相 
关 。 一旦 添加 了 外 部 资源 (例如 数据 库 )， 那 这 两 者 的 性 能 就 都 很 重要 了 。 在 分 布 式 环境 
中 ， 比 如 Java EE 应 用 服务 器 、 负 载 均 衡器 、 数 据 库 和 后 台 企 业 信 息 系统 ，Java 应 用 服务 
器 的 性 能 问题 可 能 只 是 其 中 很 小 的 部 分 。 

本 书 并 不 关注 整体 系统 的 性 能 。 对 于 整体 系统 ， 我 们 需要 采取 结构 化 方法 针对 系统 的 所 有 
方面 分 析 性 能 。CPU 使 用 率 、LIO 延迟 、 系 统 整体 的 吞吐 量 都 必须 测量 和 分 析 。 只 有 到 那 
时 ， 我 们 才能 判定 到 底 是 哪个 组 件 导 致 了 性 能 瓶颈 。 关 于 这 个 主题 有 大 量 优秀 的 资源 ， 相 
关 的 方法 和 工具 也 不 只 针对 Java。 假 定 你 已 经 完成 了 分 析 ， 并 且 判 断 出 是 运行 环境 中 Java 
组 件 的 性 能 需要 改善 。 
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不 只 JVM 有 bug 和 性 能 问题 
这 节 以 数据 库 的 性 能 为 例 ， 但 运行 环境 的 任何 部 分 都 可 能 会 引起 性 能 问题 。 


我 曾经 遇 到 过 一 个 问题 ， 客 户 正 在 安装 新 版 本 的 应 用 服务 器 ， 而 测试 显示 请 求 发 送 到 
服务 器 上 的 时 间 变 得 越 来 越 长 。 于 是 我 根据 奥 卡 姆 剃刀 原则 (参见 下 一 条 贴 士 ) ， 考 察 
应 用 服务 器 中 所 有 可 能 产生 问题 的 部 分 。 

逐一 排除 之 后 ， 性 能 问题 依旧 ， 而 且 我 也 没 发 现 后 台数 据 库 有 问题 。 因 此 最 可 能 的 原 
因 是 测试 框架 ， 通 过 性 能 分 析 判 定 负 载 发 生 器 一 一 Apache JMeter 一 一 才 是 性 能 衰退 的 
原因 。 它 将 每 个 响应 保留 在 列表 中 ， 每 次 有 新 响应 到 来 时 ， 它 都 要 遍历 整个 列表 ， 以 
便 找 到 响应 时 间 90% 的 请 求 (如 果 不 熟 悉 这 些 词 ， 请 参见 第 2 章 )。 


部 署 应 用 的 系统 ， 它 的 任何 部 分 都 可 能 会 引起 性 能 问题 。 常 规 案例 分 析 建 议 应 该 首先 
考虑 系统 最 新 变动 的 部 分 (通常 是 JVM 中 的 应 用 ) ， 但 仍然 要 准备 检查 环境 的 每 一 个 
可 能 出 现 问题 的 组 件 。 





另 一 方面 ， 不 要 忽视 初步 分 析 。 如 果 数 据 库 是 瓶颈 〈 提 示 : 的 确 是 的 话 )， 那 么 无 论 怎么 
优化 访问 数据 库 的 Java 应 用 ， 都 无 助 于 整体 性 能 ， 实 际 上 可 能 适得其反 。 作 为 一 般 性 原 
则 ， 系 统 负载 增加 越 大 ， 系 统 性 能 就 会 越 糟糕 。 如 果 更 改 了 Java 应 用 使 得 它 更 有 效 ， 这 只 
会 增加 已 经 过 载 的 数据 库 的 负载 ， 整 体 性 能 实际 反而 会 下 降 。 导 致 的 风险 是 ， 可 能 会 得 出 
错误 结论 ， 即 认为 不 应 该 改进 JVM。 

增加 系统 某 个 组 件 的 负载 从 而 导致 整个 系统 性 能 变 慢 ， 这 项 原则 不 仅 限 于 数据 库 。CPU 密 
集 型 的 应 用 服务 器 增加 负载 ， 或 者 越 来 越 多 线程 试图 获取 已 经 有 线程 等 待 的 锁 ， 还 有 许多 
其 他 场景 ， 也 都 适用 这 项 原则 。 第 9 章 展 示 了 一 个 仅 涉及 JVM 的 极端 例子 。 


1.3.5 常见 的 优化 


如 有 果 所 有 的 性 能 问题 同等 重要 ， 从 而 “ 积 少 成 多 ”地 改进 性 能 ， 那 是 多 么 吸引 人 。 但 常见 
的 用 例 场景 才 是 真正 应 该 关注 的 重点 。 


我 们 可 以 从 以 下 几 方 面 阐述 这 条 原则 。 





























借助 性 能 分 析 来 优化 代码 ， 重 点 关注 性 能 分 析 中 最 耗 时 的 操作 。 然 而 请 广 意 ， 这 并 不 意 
味 着 只 看 性 能 分 析 中 的 叶子 方法 (参见 第 3 章 )。 

利用 奥 卡 姆 剃刀 原则 诊断 性 能 问题 。 性 能 问题 最 可 能 的 原因 应 该 是 最 容易 解释 的 : 新 代 
码 比 机 器 配置 更 可 能 引入 性 能 问题 ， 而 机 器 配置 比 JVM 或 者 操作 系统 的 bug 更 容易 引 
入 性 能 问题 。 隐 藏 的 bug 确实 存在 ， 但 不 应 该 把 最 可 能 引起 性 能 问题 的 原因 首先 归咎 于 
它 ， 而 只 在 测试 用 例 通 过 某 种 方式 触发 了 隐藏 的 bug 时 才 关 注 。 但 不 应 该 一 上 来 就 跳 到 
这 种 不 太 可 能 的 场景 。 

为 应 用 中 最 常用 的 操作 编写 简单 算法 。 以 估算 数学 公式 的 程序 为 例 ， 用 户 可 以 决定 他 所 
期 望 的 最 大 容许 误差 为 10% 或 1%。 如 果 10% 的 误差 适合 多 数 用 户 ， 那 么 优化 代码 就 
意味 着 即便 误差 范围 缩小 为 1%， 但 是 速度 变 慢 了 。 















































1.4 小 结 


Java 7 和 Java 8 引入 了 大 量 新 特性 和 工具 ， 使 得 Java 应 用 的 性 能 更 容易 发 挥 到 极致 。 本 和 
有 助 于 你 理解 如 何 有 效 地 利用 所 有 的 JVM 特性 ， 最 终 使 程序 如 虎 添 愤 。 

不 过 请 记 住 ， 许 多 情况 下 ，JVM 只 占 整 体 性 能 的 一 小 部 分 。 你 需要 对 Java 所 在 的 环境 进 
行 整体 系统 调 优 ， 数 据 库 和 其 他 后 台 运 行 系统 性 能 的 重要 性 不 亚 于 JVM。 不 过 整体 的 性 能 
分 析 不 是 本 书 的 关注 重点 ， 本 书 假设 我 们 已 经 做 过 详细 的 调查 ， 确 定 环境 中 的 Java 组 件 是 
系统 的 重要 瓶颈 。 

此 外 ，JVM 与 系统 其 他 部 分 的 交互 对 性 能 的 影响 也 同样 重要 ， 无 论 是 直接 交互 (例如 以 最 
佳 方式 使 用 JDBC) ， 还 是 间接 交互 〈 例 如 优化 应 用 所 使 用 的 本 地 内 存 ， 这 类 应 用 与 大 型 系 
统 的 各 种 组 件 共 享 机 器 ) 。 本 书 也 有 助 于 解决 这 类 性 能 问题 。 
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第 2 章 


性 能 测试 方法 





本 章 讨论 了 性 能 测试 的 4 项 原则 。 这 些 原则 是 后 续 音 市 的 基础 ， 也 涵盖 了 性 能 工程 科学 的 
各 个 方面 。 


后 续 章 节 中 的 许多 示例 均 取材 于 一 个 普通 应 用 ， 本 章 也 对 此 做 了 概要 介绍 。 


2.1 原则 1: 测试 真实 应 用 


第 1 条 原则 就 是 ， 应 该 在 产品 实际 使 用 的 环境 中 进行 性 能 测试 。 性 能 测试 大 体 上 可 以 分 为 
3 种 ， 每 种 都 有 其 优点 和 不 足 ， 只 有 适用 于 实际 应 用 的 才能 取得 最 好 的 效果 。 


2.1.1 微 基准 测试 
第 1 种 是 微 基准 测试 。 微 基准 测试 用 来 测量 微小 代码 单元 的 性 能 ， 包 括 调用 同步 方法 的 用 
时 与 非 同步 方法 的 用 时 比较 ， 创 建 线 程 的 代价 与 使 用 线程 池 的 代价 ， 执 行 某 种 算法 的 耗 时 
与 其 替代 实现 的 耗 时 ， 等 等 。 


微 基 准 测 试看 起 来 很 好 ， 但 要 写 对 却 很 困难 。 考 虑 以 下 代码 ， 被 测 的 方法 是 计算 出 第 50 
裴 波 那 契 数 ， 这 段 代 码 试图 用 微 基准 测试 来 测试 不 同 实现 的 性 能 ， 
public void doTest() { 
// 主 循环 
double 1; 
Long then = System.currentTimeMillis(); 
for (int i = 0; i < nLoops; i++) { 
1 = fibImpl1(50); 





















































} 
long now = System.currentTimeMillis(); 
System.out.printLn("ELapsed time: " + (now - then)); 


} 


private double fibImpli(int n) { 
if (n < 0) throw new IllegalArgumentException("Must be > 0"); 
if (n == 0) return 0d; 
if (n == 1) return 1d; 
double d = fibImpli(n - 2) + fibImpl(n - 1); 
if (Double.isInfinite(d)) throw new ArithmeticException("Overflow"); 
return d; 


} 
代码 看 起 来 简单 ， 却 存在 很 多 问题 。 
1. 必须 使 用 被 测 的 结果 
这 段 代码 的 最 大 问题 是 ， 实 际 上 它 永 远 都 不 会 改变 程序 的 任何 状态 。 因 为 斐 波 那 契 的 计算 
结果 从 来 没有 被 使 用 ， 所 以 编译 器 可 以 很 放心 地 去 除 计算 结果 。 智 能 的 编译 器 (包括 当前 
的 Java7 和 Java 8) 最 终 执行 的 是 以 下 代码 : 

Long then = System.currentTimeMillis(); 


Long now = System.currentTimeMillis(); 
System.out.printLn("ELapsed time: " + (now - then)); 


结果 是 ， 无 论 计算 斐 波 那 契 的 方法 如 何 实现 ， 循 环 执行 了 多 少 次 ， 实 际 的 流逝 时 间 其 实 只 
有 儿 毫 秒 。 循 环 如 何 被 消除 的 细节 请 参见 第 4 章 。 

有 个 方法 可 以 解决 这 个 问题 ， 即 确保 读 取 被 测 结果 ， 而 不 只 是 简单 地 写 。 实 际 上 ， 将 局 
部 变量 1 的 定义 改 为 实例 变量 (并 用 关键 字 votatite 声明 ) 就 能 测试 这 个 方法 的 性 能 
(实例 变量 1 必需 声明 为 volatile 的 原因 请 参见 第 9 章 。) 






































多 线程 微 基准 测试 
即便 本 示例 是 单线 程 微 基 准 测试 ， 也 必需 使 用 volatile 变量 。 


编写 多 线程 微 基 准 测试 时 务必 深思 熟 虑 。 当 若干 个 线程 同时 执行 小 段 代码 时 ， 极 有 可 
能 会 产生 同步 瓶颈 (以 及 其 他 线程 问题 ) 。 所 以 ， 如 果 我 们 过 多 依赖 多 线程 基准 测试 的 
结果 ， 就 常常 会 将 大 量 时 间 花 费 在 优化 那些 真实 场景 中 很 少 出 现 的 同步 瓶颈 上 ， 而 不 
是 性 能 需求 更 迫切 的 地 方 。 


考虑 这 样 的 微 基 准 测试 ， 即 有 两 个 线程 同时 调用 同步 方法 。 由 于 基准 测试 的 代码 量 相 
对 于 被 测 方法 来 说 比较 少 ， 所 以 多 数 时 间 都 是 在 执行 同步 方法 。 假 设 执行 同步 方法 的 
时 间 只 占 整 个 微 基 准 测 试 的 $0 史 ， 即 便 少 到 只 有 两 个 线程 ， 同 时 执行 同步 代码 的 概率 
仍然 很 高 。 因 此 基准 测试 运行 得 很 慢 ， 并 且 随 着 线程 数 的 增加 ， 竞 争 所 导致 的 性 能 问 
题 将 愈演愈烈 。 最 终结 果 就 是 ， 测 试 衡量 的 是 JVM 如 何 处 理 竞 争 ， 而 不 是 微 基准 测试 
的 本 来 目的 。 











D 


. 不 要 包括 无 关 的 操作 
即便 使 用 了 被 测 结果 ， 依 然 还 有 隐患 。 上 述 代码 只 有 一 个 操作 :计算 第 50 个 斐 波 那 契 数 。 
可 想 而 知 ， 其 中 有 些 迭 代 操 作 是 多 余 的 。 如 果 编 译 器 足够 智能 的 话 ， 就 能 发 现 这 个 问题 ， 
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从 而 只 执行 一 志 循 环 一 一 至 少 可 以 少儿 次 和 迭代， 因为 那些 迭代 是 多 余 的 。 

另外 ，fibImpl(1009) 的 性 能 可 能 与 fibImpl(1) 相差 很 大 。 如 果 目 的 是 为 了 比较 不 同 实现 
的 性 能 ， 测 试 的 输入 就 应 该 考虑 用 一 系列 数据 。 

也 就 是 说 ， 解 决 这 个 问题 ， 需 要 给 fibImpl1() 传 入 不 同 的 参数 。 可 以 使 用 随机 值 ， 但 仍然 
必须 小 心 。 
下 面 是 种 简单 方法 ， 即 在 循环 中 使 用 随机 数 生成 器 : 


for (int i = 0; i < nLoops; i++) { 
L = fibImpli(random.nextInteger()); 


























} 
可 以 看 到 ， 循 环 中 包括 了 计算 随机 数 ， 所 以 测试 的 总 时 间 是 计算 斐 波 那 契 数列 的 时 间 ， 加 
上 生成 一 组 随机 数 的 时 间 。 这 可 不 是 我 们 的 目的 。 
微 基 准 测 试 中 的 输入 值 必须 事先 计算 好 ， 比 如 : 

int[] input = new int[nLoops]; 


for (int i = 0; i < nLoops; i++) { 
input[i] = random.nextInt(); 





} 
long then = System.currentTimeMillis(); 
for (int i = 0; i < nLoops; i++) { 
try { 
1 = fibImpl1i(input[i]); 
} catch (IllegalArgumentException iae) { 
} 
} 


Long now = System.currentTimeMillis(); 


3. 必须 输入 合理 的 参数 

此 处 还 有 第 3 个 隐患 ， 就 是 测试 的 输入 值 范 围 : 任意 选择 的 随机 输入 值 对 于 这 段 被 测 代码 
的 用 法 来 说 并 不 具有 代表 性 。 在 这 个 测试 例子 中 ， 有 一 半 的 方法 调用 会 立即 抛 出 异常 〈 即 
所 有 的 负数 )。 输 入 参数 大 于 1476 时 ， 也 都 会 抛 出 异常 ， 因 为 此 时 计算 出 来 的 是 double 类 
型 所 能 表示 的 最 大 的 斐 波 那 契 数 。 


如 果 计 算 斐 波 那 契 数 的 速度 大 幅度 提升 ， 但 例外 情况 直到 计算 结束 时 才 被 监测 到 时 ， 在 实 
现 中 会 发 生 什么 ? 考虑 下 面 这 种 替代 实现 ; 
public double fibImpLSLow(int n) { 
if (n < 0) throw new IllegalArgumentException("Must be > 0"); 
if (n > 1476) throw new ArithmeticException("Must be < 1476"); 
return verySlowImpl(n); 


} 
虽然 很 难 想象 会 有 比 原 先 用 递归 更 慢 的 实现 ， 但 我 们 不 妨 假定 有 这 人 么 个 实现 并 用 在 了 这 段 
代码 里 。 通 过 大 量 输入 值 比较 这 两 种 实现 ， 我 们 会 发 现 ， 新 的 实现 竞 然 比 原先 的 实现 快 得 
多 一 一 仅仅 是 因为 在 方法 开始 时 进行 了 范围 检查 。 
如 果 在 真实 场景 中 ， 用 户 只 会 传 入 小 于 100 的 值 ， 那 这 个 比较 就 是 不 正确 的 。 通 常情 况 下 
fibImpL() 会 更 快 ， 正 如 第 1 章 所 说 ， 我 们 应 该 为 常见 的 场景 进行 优化 。( 显 然 这 是 个 精心 
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构造 的 例子 。 不 管 怎 样 ， 仅 仅 在 原先 的 实现 上 添加 了 边界 测试 就 使 得 性 能 变 好 ， 通 常 这 
不 可 能 的 。) 





日 
让 





热身 期 
Java 的 一 个 特点 就 是 代码 执行 的 越 多 性 能 越 好 ， 第 4 章 将 会 覆盖 这 个 主题 。 基 于 这 点 ， 
微 基 准 测试 应 该 包括 热身 期 ， 使 得 编译 器 能 生成 优化 的 代码 。 
本 章 后 续 将 深入 讨论 热身 期 的 优 缺点 。 微 基准 测试 需要 热身 期 ， 否 则 测量 的 是 编译 而 
不 是 被 测 代码 的 性 能 














综合 所 有 因素 ， 正 确 的 微 基准 测试 代码 看 起 来 应 该 是 这 样 : 


package net.sdo; 





import java.util.Random; 


public class FibonacciTest { 
private volatile double ll; 
private int nLoops; 
private int[] input; 


public static void main(String[] args) { 
FibonacciTest ft = new FibonacciTest(Integer.parseInt(args[0])); 
ft.doTest(true); 
ft.doTest(false); 

} 


private FibonacciTest(int n) { 
nLoops = nN; 
input = new int[nLoops]; 
Random r = new Random(); 
for (int i = 0; i < nLoops; i++) { 
input[i] = r.nextInt(100); 
} 
} 


private void doTest(boolean isWarmup) { 
Long then = System.currentTimeMillis(); 
for (int i = 0; i < nLoops; i++) { 
Ll = fibImpl1i(input[i]); 


if (!isWarmup) { 
Long now = System.currentTimeMillis(); 
System.out.printLn("ELapsed time:" + (now - then)); 


} 


private double fibImpli(int n) { 
if (n < 0) throw new IllegalArgumentException("Must be > 0"); 
if (n == 0) return 0d; 
if (n == 1) return 1d; 
double d = fibImpli(n - 2) + fibImpl(n - 1); 





if (Double.isInfinite(d)) throw new ArithmeticException("Overflow"); 
return d; 
} 
} 


甚至 这 个 微 基 准 测试 的 测量 结果 中 也 仍然 有 一 些 与 计算 斐 波 那 契 数 没 有 太 大 关系 : 调用 
fibImpl1() 的 循环 和 方法 开销 ， 将 每 个 结果 都 写 到 volatile 变量 中 也 会 有 额外 开销 。 


此 外 还 需要 留意 编译 效应 。 编 译 器 编译 方法 时 ， 会 依据 代码 的 性 能 分 析 反 馈 来 决定 所 使 
用 的 最 佳 优化 策略 。 性 能 分 析 反 馈 基 于 以 下 因素 : 频 芝 调 用 的 方法 、 调 用 时 的 栈 识 度 、 
方法 参数 的 实际 类 型 (包括 子 类 ) 等 ， 它 还 依赖 于 代码 实际 运行 的 环境 。 编 译 器 对 于 相 
同 代码 的 优化 在 微 基准 测试 中 和 实际 应 用 中 经 常 有 所 不 同 。 如 果 用 相同 的 测试 衡量 翡 波 
那 契 方法 的 其 他 实现 ， 就 能 看 到 各 种 编译 效应 ， 特 别 是 当 这 个 实现 与 当前 的 实现 处 在 不 
同 的 类 中 时 。 


最 终 ， 还 要 探讨 微 基 准 测 试 实际 意味 着 什么 。 比 如 这 里 讨论 的 基准 测试 ， 它 有 大 量 的 循 
环 ， 整 体 时 间 以 秒 计 ， 但 每 轮 循环 欠 代 通常 是 纳 秒 级 。 没 错 ， 纳 秒 累计 起 来 ,“ 积 少 成 
多 ”就 会 成 为 频 系 出 现 的 性 能 问题 。 特 别 是 在 做 回归 测试 的 时 候 ， 追 踩 级 别 设 为 纳 秒 很 有 
意义 。 如 果 集 合 操作 每 次 都 节约 几 纳 秒 ， 日 积 月 累 下 来 意义 就 很 重大 了 (示例 参见 第 12 
任 )。 对 于 那些 不 频繁 的 操作 来 说 ， 例 如 那 种 同时 只 需 处 理 一 个 请 求 的 servlet， 修 复 微 基 
准 测试 所 发 现 的 纳 秒 级 性 能 衰减 就 是 浪费 时 间 ， 这 些 时 间 用 在 优化 其 他 操作 上 可 能 会 更 有 
价值 。 


微 基 准 测 试 难于 编写 ， 真正 管用 的 又 很 有 限 。 所 以 ， 应 该 了 解 这 些 相关 的 隐患 后 再 做 出 决 
定 ， 是 微 基准 测试 合情合理 值得 做 ， 还 是 关注 宏观 的 测试 更 好 。 


2.1.2 宏基 准 测试 

衡量 应 用 性 能 最 好 的 事物 就 是 应 用 自身 ， 以 及 它 所 用 到 的 外 部 资源 。 如 果 正 常情 况 下 应 用 
需要 调用 LDAP 来 检验 用 户 赁 证 ， 那 应 用 就 应 该 在 这 种 模式 下 测试 。 虽 然 删 空 LDAP 调用 
在 模块 测试 中 有 一 定 意义 ， 但 应 用 本 身 必 须 在 完整 真实 配置 的 环境 中 测试 。 


随 着 应 用 规模 的 增长 ， 上 述 准则 愈加 重要 也 更 难 达到 。 复 杂 系 统 并 不 是 各 个 部 分 的 简单 加 
和 ， 装 配 之 后 ， 各 部 分 的 行为 会 有 很 大 不 同 。 所 以 ， 比 如 你 伪装 数据 库 调 用 ， 那 就 意味 着 
你 并 不 担心 数据 库 的 性 能 一 一 对 了 ， 你 是 Java 人 ， 为 什么 要 处 理 其 他 人 的 性 能 问题 呢 ? 数 
据 库 连 接 会 因为 缓存 而 消耗 大 量 堆 内 存 ， 网 络 也 会 因为 发 送 大 量 数据 而 饱和 ， 代 码 调 用 简 
单方 法 (与 调用 JDBC 驱动 程序 的 代码 相 比 ) 时 的 不 同 优化 ， 短 代码 路 径 因 为 CPU 管线 和 
缓存 而 比 长 代码 路 径 更 为 有 效 ， 等 等 。 


需要 测试 整体 应 用 的 另外 一 个 原因 是 资源 的 分 配 。 在 完美 世界 中 ， 我 们 有 足够 的 时 间 去 优 
化 应 用 的 每 一 行 代码 。 但 现实 是 ， 截 止 日 期 迫在眉睫 ， 只 对 复杂 系统 进行 部 分 优化 也 无 法 
立即 奏效 。 

考虑 图 2-1 中 的 数据 流 。 用 户 发 起 数据 请 求 ， 然 后 系统 进行 业务 处 理 ， 并 基于 结果 从 数据 
库 装 载 数据 ， 再 进行 处 理 ， 最 后 将 更 改 后 的 数据 存 入 数据 库 ， 并 将 结果 发 还 给 用 户 。 方 框 
中 的 数字 (例如 200 RPS) 是 每 秒 的 请 求 数 ， 是 模块 单独 测试 时 所 能 承载 的 处 理 量 。 





































































































































































































性 能 测试 方法 | 13 








LDAP 登 录 计算 装载 数据 
(200 RPS) (100 RPS) (100 RPS 
发 起 请 求 存储 数据 计算 
(500 RPS) (200 RPS) (150 RPS 


图 2-1: 典型 的 程序 流程 


从 商业 角度 看 ， 业 务 处 理 是 最 重要 的 ， 是 程序 存在 的 理由 ， 也 是 有 人 愿意 付 钱 给 我 们 的 原 
因 。 不 过 在 这 个 例子 中 ， 即 便 业务 处 理 速 度 提高 100% 也 完全 没什么 好 处 。 任 何 应 用 ( 包 
含 独立 运行 的 JVM) 都 可 以 像 这 样 划 分 成 一 系列 步骤， 方 框 中 的 模块 、 子 系统 等 产生 数据 
的 速度 取决 于 它们 的 效率 。( 在 这 个 模型 中 ， 每 个 方 框 耗费 的 时 间 包 括 子 系统 代码 的 执行 
时 间 ， 也 包括 网 络 传输 的 时 间 、 磁 盘 传 输 的 时 间 ， 等 等 。 如 果 是 模块 化 的 模型 ， 时 间 应 该 
只 包括 该 模块 内 代码 的 执行 时 间 。) 数据 进入 子 系统 的 速率 取决 于 前 一 个 模块 或 系统 的 输 
出 速率 "。 

假设 业务 处 理 的 算法 有 所 改进 ， 处 理 量 达到 了 200 RPS， 系 统 能 承受 的 负载 也 相应 增加 。 
LDAP 系统 可 以 处 理 这 些 增加 的 负载 : 目前 为 止 一 切 都 好 ， 数 据 将 以 200 RPS 的 速率 注入 
业务 处 理 模块 ， 而 它 也 将 以 200 RPS 的 速率 输出 。 

但 数据 库 只 能 以 100 RPS 的 速率 装载 数据 。 虽 然 向 数据 库 发 送 请 求 的 速率 为 200 RPS， 输 
出 到 其 他 模块 的 速率 却 只 有 100 RPS。 即 便 业务 逻辑 处 理 的 效率 加 倍 ， 系 统 整 体 的 吞吐 量 
仍然 只 能 达到 100 RPS。 所 以 ， 除 非 花 时 间 改 善 环 境 其 他 方面 的 效率 ， 否 则 业务 逻辑 做 再 
多 改进 也 是 无 效 的 。 





































































































多 JVM 时 的 全 系统 测试 
全 应 用 测试 有 个 很 重要 的 场景 ， 就 是 同一 台 机 器 上 同时 运行 多 个 应 用 。 许 多 JVM 的 默认 
调 优 都 是 默认 假定 整个 机 器 的 资源 都 归 JVM 使 用 。 如 果 单 独 测试 ， 优 化 效果 很 好 。 如 果 
在 其 他 应 用 (包括 但 不 限于 Java 程序 ?) 运行 的 时 候 进行 测试 ， 性 能 会 有 很 大 的 不 同 。 


这 方面 的 示例 请 参见 后 续 章 节 ， 这 里 只 快速 过 一 遍 : 单个 JVM (默认 配置 ) 执行 GC 周 
期 时 ， 该 机 器 上 所 有 处 理 器 的 CPU 使 用 率 都 会 变 成 100%。 如 果 测 量程 序 执行 时 的 平均 
CPU 使 用 率 ， 大 概 会 有 40% 一 一 实际 意思 是 ， 某 些 时 候 30% 的 CPU 被 占用 ， 其 他 时 候 
为 100%。 当 隔离 JVM 时 ， 它 可 以 运行 得 很 好 ， 但 如 果 JVM 与 其 他 应 用 并 发 运行 ， 它 
就 不 可 能 在 GC 时 获得 100% 的 CPU。 此 时 测 出 来 的 性 能 会 与 它 单独 运行 时 不 同 。 


这 是 微 基准 测试 和 模块 测试 不 可 能 让 你 全 面 了 解 应 用 性 能 的 另 一 个 原因 。 























注 1: 原文 中 的 “box” 指 图 中 的 方 框 ， 其 含义 是 模块 或 子 系统 ， 为 便于 理解 ， 此 处 采取 意译 。 一 一 译 者 注 
注 2: 原文 “otherJVM” 直 译 容易 误解 为 “其 他 JVM 实现 ”， 此 处 改 用 “Java 程序 ”。 一 一 译 者 注 
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本 例子 中 ， 优 化 业务 处 理 并 不 完全 是 浪费 时 间 : 在 系统 其 他 性 能 瓶 颈 上 曾经 付出 的 努力 ， 
终究 会 有 好 处 。 进 一 步 说 ， 这 中 间 有 个 优先 顺序 : 不 进行 整体 应 用 的 测试 ， 就 不 可 能 知道 
哪 部 分 的 优化 会 产生 回报 。 


2.1.3” 介 基准 测试 

我 的 调 优 工作 包括 Java SE 和 EE， 每 种 都 会 有 一 组 类 似 微 基准 测试 的 测试 。 对 于 Java SE 
工程 师 来 说 ， 这 个 术语 意思 是 样本 甚至 比 2.1.1 节 的 还 要 小 : 测量 很 小 的 东西 。Java EE 工 
程 师 则 将 这 个 术语 用 于 其 他 地 方 : 测量 某 方面 性 能 的 基准 测试 ， 但 仍然 要 执行 大 量 代 码 。 


Java EE 微 基准 测试 的 例子 ， 测 量 从 应 用 服务 器 返回 的 简单 JSP 响应 。 仔 细 比 较 处 理 请 求 
的 代码 和 传统 微 基准 测试 的 代码 : 有 许多 socket 管理 代码 ， 读 取 请 求 、 查 找 (可 能 需要 编 
译 ) JSP、 写 入 响应 等 代码 。 从 传统 角度 来 看 ， 这 不 能 算 微 基准 测试 。 

这 种 测试 也 不 是 宏基 准 测试 没有 安全 〈 比 如 用 户 不 用 登录 )， 没 有 会 话 管理 ， 也 没有 大 
量 使 用 其 他 的 Java EE 特性 。 因 为 它 只 是 实际 应 用 的 子 集 ， 介 于 两 者 之 间 一 一 它 是 介 基 准 
测试 。 介 基准 测试 并 不 局 限于 Java EE: 它 是 一 个 术语 ， 我 用 来 表示 做 一 些 实际 工作 ， 但 
不 是 完整 应 用 的 基准 测试 。 
介 基 准 测 试 与 微 基准 测试 相 比 隐患 更 少 ， 又 比 宏基 准 测 试 容易 。 介 基准 测试 不 包含 会 被 纺 
译 器 优化 的 大 量 死 代码 (除非 应 用 中 真 的 存在 死 代 码 ， 否 则 这 种 情况 下 优化 是 件 好 事 )。 
介 基 准 测试 更 容易 线程 化 ， 它们 比 全 应 用 时 运行 的 代码 更 容易 遇 到 同步 瓶颈 ， 不 过 这 些 是 
实际 应 用 在 更 大 规模 硬件 系统 和 更 大 负载 时 ， 最 终 都 会 遇 到 的 瓶颈 。 

介 基 准 测 试 仍然 不 完美 。 开 发 人 员 用 这 样 的 基准 测试 比较 两 个 应 用 服务 器 性 能 时 ， 容 易 误 
入 歧途 。 考 虑 表 2-1 中 两 个 应 用 服务 器 假想 的 响应 时 间 。 

表 2-1: 两 个 应 用 服务 器 的 假想 响应 时 间 























































































































测试 应 用 服务 器 1 ( 毫秒 ) 应 用 服务 器 2 ( 毫秒 ) 
简单 JSP 19 50 
会 话 的 JSP 75 50 





仅 使 用 简单 JSP 的 开发 人 员 比 较 两 个 服务 器 性 能 时 ， 可 能 不 会 意识 到 ， 服 务 器 2 会 自动 为 
每 个 请 求 创建 会 话 。 他 可 能 会 得 出 服务 器 1 性 能 更 快 的 结论 ， 结 果 他 就 做 出 了 错误 选择 ， 
因为 实际 上 服务 器 1 创建 会 话 要 花费 更 长 时 间 。( 后 续 调 用 的 性 能 是 否 有 差别 是 另 一 个 需 
要 考虑 的 因素 ， 但 从 这 些 数据 无 法 预计 一 旦 会 话 创建 后 ， 哪 个 服务 器 的 性 能 会 更 好 。) 
即便 如 此 ， 介 基准 测试 也 为 测试 全 应 用 提供 了 一 个 合理 选择 。 它 们 的 性 能 比 微 基准 测试 更 
接近 实际 应 用 。 这 里 有 个 连续 的 过 程 。 本 章 稍 后 的 章节 将 概要 介绍 一 个 常见 应 用 ， 后 续 
音节 中 的 许多 示例 程序 都 出 自 该 应 用 。 这 个 应 用 有 EE 模式 ， 但 这 种 模式 不 使 用 会 话 复制 
(高 可 用 ) ， 或 者 基于 EE 平台 的 安全 。 虽 然 它 能 访问 企业 资源 〈 比 如 数据 库 ) ， 但 多 数 示例 
中 它 只 使 用 随机 数据 。 在 SE 模式 下 ， 它 模仿 一 些 实际 (但 很 快 ) 计算 : 比如 没有 GUI 或 
者 用 户 交 互 发 生 。 

介 基 准 测试 也 有 益 于 自动 化 测试 ， 特 别 是 模块 级 别 的 测试 。 
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快速 小 结 

1. 好 的 微 基 准 测 试 既 难 写 ,价值 又 有 限 。 如 果 你 必须 使 用 它 ， 那 可 以 用 它 
来 快速 了 解 性 能 ， 但 不 要 依赖 它们 。 

2， 测试 完整 应 用 是 了 解 它 实 际 运行 的 唯一 途径 。 

3. 在 模块 或 者 操作 级 别 隔离 性 能 一 一 介 基 准 测 试 一 一 相对 于 全 应 用 测试 来 
说 ， 是 一 种 合理 的 折 中 途径 ， 而 不 是 赫 代 方法 。 











2.1.4 代码 示例 


贯穿 全 书 的 许多 例子 都 来 自 于 一 个 示例 应 用 ， 计 算 某 只 股票 在 一 段 时 间 内 的 “历史 ”最 高 
价 和 最 低 价 ， 以 及 标准 差 。 因 为 所 有 数据 恬 为 虚构 ， 价 格 和 股票 代码 也 是 随机 生成 ， 所 以 
这 里 的 历史 标 上 了 引号 。 


本 书 的 所 有 示例 代码 都 可 在 我 的 GitHub 上 ”找到 ， 本 节 只 是 覆盖 了 代码 的 基本 要 点 。 基 本 
接口 StockPrice 表示 革 股 票 基 天 的 价格 区 间 


public interface StockpPrice { 
String getSymbol(); 
Date getDate(); 
BigDecimal getCLosingPrice(); 
BigDecimal getHigh(); 
BigDecimal getLow(); 
BigDecimal getOpeningPrice(); 
boolean isYearHigh(); 
boolean isYearLow(); 
Collection<? extends StockOptionprice> getOptions(); 














} 


通常 ， 那 些 示 例 应 用 都 是 对 一 组 股价 进行 处 理 ， 这 些 股价 表示 一 段 时 间 内 的 股票 历史 ( 比 
如 1 年 或 25 年 ， 取决 于 具体 的 示例 ) : 


public interface StockPriceHistory { 
StockPrice getpPrice(Date d); 
Collection<StockPrice> getPrices(Date startDate, Date endDate); 
Map<Date, StockPprice> getAllEntries(); 
Map<BigDecimal ,ArrayList<Date>> getHistogram(); 
BigDecimal getAveragePrice(); 
Date getFirstDate(); 
BigDecimal getHighprice(); 
Date getLastDate(); 
BigDecimal getLowPrice(); 
BigDecimal getStdDev(); 
String getSymbol(); 





} 
这 个 接口 的 基本 实现 是 从 数据 库 载 入 股价 : 


public class StockPriceHistoryImpl implements StockPriceHistory { 





注 3: https://github.com/ScottOaks/JavaPerformanceTuning。 一 一 译 者 注 
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public StockPriceHtistoryImpL(String s, Date startDate, 
Date endDate, EntityManager em) { 
Date curDate = new Date(startDate.getTime()); 
symbol = s; 
while (!curDate.after(endDate)) { 
StockPriceImpL sp = em.find(StockPriceImpl.class, 
new StockPricepK(s, (Date) curDate.clone())); 
if (sp != null) { 
Date d = (Date) curDate.clone(); 
if (firstDate == null) { 
firstDate = d; 


prices.put(d, sp); 
LastDate = d; 


curDate.setTime(curDate.getTime() + msPerDay); 


} 


这 个 示例 的 架构 是 从 数据 库 载 和 数据， 第 11 章 将 使 用 这 个 功能 。 不 过 为 了 便于 运行 示例 ， 
多 数 时候 将 用 伪装 过 的 实体 管理 器 (mock entity manager) 随机 生成 一 系列 数据 。 大 体 上 ， 
多 数 示例 是 模块 级 别 的 介 基 准 测 试 ， 适 合 随 手 演 示 性 能 问题 一 一 不 过 全 应 用 运行 时 ， 我 们 
会 了 解 实际 的 应 用 性 能 (参见 第 11 章 )。 


附带 说 明 一 下 ， 许 多 示例 依赖 随机 数 生成 器 的 性 能 。 与 微 基准 测试 示例 不 同 ， 这 里 是 有 意 
为 之 ， 可 以 展示 一 些 Java 的 性 能 问题 。( 就 此 而 言 ， 示 例 是 为 了 测量 一 些 任意 状况 下 的 性 
能 ， 随 机 数 生成 器 的 性 能 正好 适合 此 目的 。 这 点 与 微 基 准 测 试 大 有 不 同 ， 微 基准 测试 中 包 
括 随机 数 生 成 时 间 就 会 影响 整体 计算 。) 


这 些 示例 重度 依赖 BigDecimal 的 性 能 ， 它 被 用 来 存储 所 有 的 数据 。 这 是 保存 货币 数据 时 的 
标准 选择 ， 如 果 货 币 用 原生 的 double 对 象 ， 半 分 钱 的 舍 人 和 更 小 的 数量 就 会 很 成 问题 。 从 
有 写 示例 的 角度 来 看 ， 这 样 做 也 有 价值 ， 因 为 可 以 在 计算 股价 标准 差 时 产生 一 些 “ 业 务 逻 
辑 ” 或 者 延长 计算 。 计 算 标准 差 需要 知晓 BigDecimal 数 的 平方 根 。 标 准 Java API 不 支持 这 
个 函数 ， 示 例 将 采用 以 下 方法 : 


public static BigDecimal sqrtB(BigDecimal bd) { 

BigDecimal initial = bd; 

BigDecimal diff; 

do { 
BigDecimal sDivX = bd.divide(initial, 8, RoundingMode.FLOOR); 
BigDecimal sum = sDivX.add(initial); 
BigDecimal div = sum.divide(TWO, 8, RoundingMode .FLOOR); 
diff = div.subtract(initial).abs(); 
diff.setScale(8, RoundingMode.FLOOR); 
initial = div; 

} while (diff.compareTo(error) > 0); 

return initial; 


} 
这 是 巴比伦 平方 根 计 算法 的 实现 。 它 不 是 最 有 效 的 实现 ， 特 别 是 初始 值 可 以 估算 得 更 好 ， 












































EE 
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可 以 少儿 轮 返 代 。 这 是 经 过 次 思 熟 虑 的 ， 因 为 计算 需要 花费 一 些 时 间 (模拟 业务 
不 过 它 展 示 了 第 1 章 中 的 基本 观点 : 使 Java 代码 更 快 的 常用 方法 是 更 好 的 算法 ， 这 
Java 调 优 或 者 Java 编码 实践 。 





逻辑 )， 


不 依赖 





StockPriceHistory 接口 实现 中 的 标准 差 、 平 均值 和 直方 图 ， 都 是 由 具体 数据 推演 
在 不 同 的 实现 中 ， 会 立即 计算 (从 实体 管理 器 加 载 数 据 的 时 候 ) 或 者 推迟 计算 ( 调 
法 的 时 候 )。StockPrice 所 引用 的 StockOptionPrice 与 此 类 似 ， 它 是 股票 在 特定 天 
价 之 一 ， 它 的 值 也 可 以 立即 或 者 推迟 从 实体 管理 器 中 获取 。 对 于 这 两 种 场景 ， 通 过 
义 ， 不同 的 实现 可 以 在 不 同情 况 下 进行 比较 。 

这 些 接口 也 与 Java EE 应 用 自然 吻合 : 用 户 先 访问 JSP 页 面 ， 然 后 选择 感 兴趣 的 股 
和 时 间 范 围 。 在 标准 示例 中 ， 请 求 将 发 送 到 标准 servlet， 它 会 解析 输入 参数 ， 通 过 
Java Persistence API (JPA) 调用 无 状态 的 Enterprise JavaBean (EJB)， 以 获取 数据 
将 响应 转发 到 JavaServer Pages (JSP) 页 面 ， 它 再 将 数据 格式 化 成 HTML 的 形式 : 


protected void processRequest(HttpServLetRequest request, 

HttpServletResponse response) 
throws ServletException, IOException { 

try { 
String symbol = request.getParameter("symbol"); 
if (symbol == null) { 
symbol = StockPriceUtils.getRandomSymbol(); 
} 






























































. Similar processing for date and other params... 
StockPriceHistory sph; 
DateFormat df = localDf.get(); 
sph = stockSessionBean.getHistory(symbol, df.parse(startDate), 
df.parse(endDate), doMock, impl); 
String saveSession = request.getParameter("save"); 
if (saveSession != null) { 
. Store the data in the user s session .... 
. Optionally store the data in a global cache for 
. Use by other requests 
} 
if (request.getParameter("Long") == null) { 
// 发 回 一 个 带 有 约 4K 大 小 的 数据 的 页 面 
request .getRequestDispatcher("history.jsp" ) . 
forward(request, response); 











} 
else { 
// 发 回 一 个 带 有 约 100K 大 小 的 数据 的 页 面 
request.getRequestDispatcher("longhistory.jsp"). 
forward(request, response); 
} 
} 











来 的 。 
用 该 方 
的 期 权 
接口 定 


票 代码 
内 骨 的 
， 然 后 


这 个 类 可 以 注入 不 同 的 StockPriceHistory 实现 〈 除 了 其 他 方法 ， 初 始 化 方法 立即 执行 或 





者 推迟 )。 它 可 以 选择 缓存 后 端 数据 库 (或 者 是 伪装 的 实体 管理 器 ) 的 数据 。 处 理 
用 时 ， 这 些 都 是 通常 的 做 法 〈 特 别 是 ， 中 间 层 应 用 服务 器 可 以 缓存 数据 ， 有 时 被 认 
很 大 的 性 能 优势 )。 贯 穿 全 书 的 例子 也 将 解释 这 些 权衡 。 














企业 应 








被 测 系统 的 硬件 
虽然 本 书 主要 集中 在 软件 上 ， 但 基准 测试 同样 也 会 测量 它们 所 运行 的 硬件 。 


本 书 中 多 数 的 例子 都 运行 在 我 的 台式 机 系统 上 ，CPU 为 4 核 (4 个 逻辑 CPU) 的 
AMD Athlon X4 640 CPU ， 物 理 内 存 为 8 GB， 操 作 系 统 为 Ubuntu Linux 12.04 LTS 。 











2.2 原则 2: 理解 批 处 理 流逝 时 间 、 香 吐 量 和 响 
应 时 间 


性 能 测试 的 第 2 条 原则 是 多 角度 审视 应 用 性 能 。 应 该 测量 哪个 指标 取决 于 对 应 用 最 重要 的 
因素 。 


2.2.1 批 处 理 流逝 时 间 
测量 应 用 性 能 的 最 简单 方法 是 ， 看 它 完成 任务 花 了 多 少时 间 ， 例 如 接收 10 000 只 股票 25 年 
的 历史 价格 并 计算 标准 差 ， 生 成 其 公 司 50 000 名 雇员 的 薪酬 福利 报表 ， 以 及 执行 1 000 000 
次 循环 的 时 间 等 。 
在 非 Java 的 世界 ， 可 以 很 直接 地 测试 流逝 时 间 : 应 用 记 下 时 间 点 从 而 测量 执行 时 间 。 但 在 
Java 世界 中 ， 由 于 即时 编译 (JIT)， 这 种 方法 就 会 有 些 问 题 了 。 第 4 章 描述 了 这 个 过 程 ， 
其 中 的 重点 是 ， 虚 拟 机 会 花 几 分 钟 (或 更 长 时 间 ) 全 面 优化 代码 并 以 最 高 性 能 执行 。 由 于 
这 个 (以 及 其 他 ) 原因 ， 研究 Java 的 性 能 优化 就 要 密切 注意 代码 优化 的 热身 期 大 多 数 时 
候 ， 应 该 在 运行 代码 执行 足够 长 时 间 ， 已 经 编译 并 优化 之 后 再 测量 性 能 。 













































































其 他 影响 应 用 热身 的 因素 
通常 认为 的 应 用 热身 ， 指 的 就 是 等 待 编译 器 优化 运行 代码 ， 不 过 基于 代码 的 运行 时 长 
还 有 其 他 一 些 影响 性 能 的 因素 。 
例如 ，JPA 通常 都 会 缓存 从 数据 库 读 取 的 数据 (参见 第 11 章 )， 由 于 这 些 数据 可 以 
从 缓存 中 获取 而 不 需要 长 途 跋涉 到 数据 库 ， 所 以 通常 再 次 使 用 时 ,操作 就 会 变 得 更 
快 。 与 此 类 似 ， 应 用 程序 读 文 件 时 ， 操 作 系 统 就 会 将 文件 载 入 内 存 。 随 后 再 次 读 取 
相同 文件 就 会 变 得 更 快 ， 这 是 因为 数据 已 经 驻 贸 在 计算 机 主 内 存 中 ， 并 不 需要 从 磁 
盘 实际 读 取 。 
一 般 来 说 ， 应 用 热身 过 程 中 有 许多 地 方 会 缓存 数据 ， 虽 然 并 不 都 那么 明显 。 











另 一 方面 ,许多 情况 下 应 用 从 开始 到 结束 的 整体 性 能 更 为 重要 。 报 告 生成 器 处 理 10 000 个 
数据 元 素 需 要 花费 大 量 时 间 ， 但 对 最 终 用 户 而 言 ， 处 理 前 5000 个 元 素 是 否 比 后 5000 个 慢 
50% 并 不 重要 。 即 便 是 像 应 用 服务 器 这 样 的 系统 一 一 其 性 能 必定 会 随 运行 时 间 而 改善 
初始 的 性 能 依然 很 重要 。 某 种 配置 下 的 应 用 服务 器 需要 45 分 钟 才 能 达到 性 能 峰值 。 对 于 
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在 这 段 时 间 访 问 应 用 的 用 户 来 说 ， 热 身 期 的 性 能 就 很 重要 了 。 
基于 这 些 理 由 ， 本 书 的 许多 例子 都 是 面向 批 处 理 的 (即便 这 看 起 来 有 些 不 寻常 )。 


2.2.2 吞吐 量 测试 

吞吐 量 测 试 是 基于 一 段 时 间 内 所 能 完成 的 工作 量 。 虽 然 最 常见 的 吞吐 量 测 试 是 服务 器 处 理 
客户 端 产生 的 数据 ， 但 这 并 非 绝 对 的 ， 单个 独立 运行 的 应 用 也 可 以 像 测量 流逝 时 间 一 样 测 
量 吞 吐 量 。 

在 客户 端 - 服 务 器 的 吞吐 量 测试 中 ， 并 不 考虑 客户 端的 思考 时 间 。 客 户 端 向 服务 器 发 送 请 
求 ， 当 它 收 到 响应 时 ， 立 刻 发 送 新 的 请 求 。 持 续 这 样 的 过 程 ， 等 到 测试 结束 时 ， 客 户 端 会 
报告 它 所 完成 的 操作 总 量 。 客 户 端 常 常 有 多 个 线程 在 处 理 ， 所 以 吞吐 量 就 是 所 有 客户 端 所 
完成 的 操作 总 量 。 通 常 这 个 数字 就 是 每 秒 完成 的 操作 量 ， 而 不 是 测量 期 间 的 总 操作 量 。 这 
个 指标 常常 被 称 作 每 秒 事 务 数 (TPS)、 每 秒 请 求 数 (RPS) 或 每 秒 操作 次 数 (OPS ) 。 

所 有 的 客户 端 - 服务 器 测试 都 存在 风险 ， 即 客户 端 不 能 足够 快 地 向 服务 器 发 送 数 据 。 这 可 
能 是 由 于 客户 端 机 器 的 CPU 不 足以 支持 所 需 数量 的 客户 端 线 程 ， 也 可 能 是 因为 客户 端 需 
要 花 大 量 时 间 处 理 响应 才能 发 送 新 的 请 求 。 在 这 些 场景 中 ， 测 试 衡量 的 其 实 是 客户 端 性 能 
而 不 是 服务 器 性 能 ， 这 并 不 是 我 们 的 目的 。 

其 中 的 风险 依赖 于 每 个 线程 所 承载 的 工作 量 (客户 端 机 器 的 线程 数 和 配置 )。 由 于 客户 端 
线程 需要 执行 大 量 工 作 ， 零 思考 时 间 (面向 吞吐 量 ) 测试 更 可 能 会 遇 到 这 种 情形 。 因 此 ， 
通常 吞吐 量 测试 比 响 应 时 间 测 试 的 线程 数 少 ， 线 程 负载 也 小 。 

通常 吞吐 量 测试 也 会 报告 请 求 的 平均 响应 时 间 。 这 是 重要 的 信息 ， 但 它 的 变化 并 不 表示 性 
能 有 问题 ， 除 非 报告 的 吞吐 量 相 同 。 能 够 承受 500 OPS、 响 应 时 间 0.5 秒 的 服务 器 ， 它 的 
性 能 要 好 过 响应 时 间 0.3 秒 但 只 有 400 OPS 的 服务 器 。 


否 吐 量 测试 总 是 在 合适 的 热身 期 之 后 进行 ， 特 别 是 因为 所 测量 的 东西 并 不 固定 。 


2.2.3 响应 时 间 测 试 

最 后 一 个 常用 的 测试 指标 是 响应 时 间 : 从 客户 端 发 送 请 求 至 收 到 响应 之 间 的 流 匠 时 间 。 
响应 时 间 测 试 和 吞吐 量 测试 (假设 后 者 是 基于 客户 端 - 服 务 器 模式 ) 之 间 的 差别 是 ， 响 应 
时 间 测 试 中 的 客户 端 线程 会 在 操作 之 间 休 眼 一 段 时 间 。 这 被 称 为 思考 时 间 。 响 应 时 间 测 试 
是 尽量 模拟 用 户 行为 : 用户 在 浏览 器 输入 URL， 用 一 些 时 间 阅 读 返 回 的 网 页 ， 然 后 点 击 页 
看 上 的 链接 ， 花 一 些 时 间 阅 读 返 回 的 网 页 ， 等 等 。 

当 测 试 中 引入 思考 时 间 时 ， 吞 吐 量 就 固定 了 : 指定 数量 的 客户 端 ， 在 给 定 思考 时 间 下 总 是 
得 到 相同 的 TPS (少许 差别 ， 参见 框 注 )。 基 于 这 点 ， 测 量 请 求 的 响应 时 间 就 变 得 重要 了 : 
服务 器 的 效率 取决 于 它 啊 应 固定 负载 有 多 快 。 






























































































































































有 两 种 方法 可 以 测试 客户 端 包括 思考 时 间 时 的 吞吐 量 。 最 简单 的 方法 就 是 客户 端 在 请 
求 之 间 休 了 眼 一 段 时 间 。 
while (!done) { 
time = executeOperation(); 


Thread.currentThread().sleep(30*1000); 
} 


这 种 情况 下 ， 吞 吐 量 一 定 程度 上 依赖 响应 时 间 。 如 果 响 应 时 间 是 1 秒 ， 就 意味 着 客户 
端 每 31 秒 发 送 一 个 请 求 ， 产 生 的 吞吐 量 就 是 0.032 OPS。 如 果 响 应 时 间 是 2 秒 ， 客 户 
闹 就 是 每 32 秒 发 送 一 个 请 求 ， 吞 吐 量 就 是 0.031 OPS 。 


另外 一 种 方法 是 周期 时 间 (Cycle Time)。 周 期 时 间 设 置 请 求 之 间 的 总 时 间 为 30 秒 ， 
所 以 客户 端 休眠 的 时 间 依 赖 于 响应 时 间 : 
while (!done) { 
time = executeOperation(); 


Thread.currentThread().sleep(30*1000 - time); 
} 


无 论 响应 时 间 是 多 少 ， 这 种 方法 都 会 产生 固定 的 吞吐 量 ， 每 个 客户 端 0.033 OPS ( 假 
设 本 例 中 的 响应 时 间 都 少 于 30 秒 ) 。 

测试 工具 中 的 思考 时 间 时 常 有 变 ， 平 均值 为 特定 值 ， 但 会 加 入 随机 变化 以 更 好 地 模拟 
用 户 行为 。 另 外 ， 线 程 调度 从 来 不 会 严格 实时 ， 所 以 客户 端 请 求 之 间 的 时 间 也 会 略 有 
不 同 。 

因此 ， 即 便 工具 提供 周期 时 间 而 不 是 思考 时 间 ， 测 试 所 报告 的 吞吐 量 也 相差 无 几 。 但 
是 ， 如 果 吞 吐 量 远 超 预 期 ， 说 明 测 试 中 一 定 有 什么 出 错 了 。 











衡量 响应 时 间 有 两 种 方法 。 响 应 时 间 可 以 报告 为 平均 值 : 请 求 时 间 的 总 和 除 以 请 求 数 。 响 
应 时 间 也 可 以 报告 为 百 分 位 请 求 ， 例 如 第 90 百 分 位 响应 时 间 。 如 果 90% 的 请 求 响应 小 于 
1.5 秒 ， 且 10% 的 请 求 响应 不 小 于 1.5 秒 ， 则 1.5 秒 就 是 第 90 百 分 位 响应 时 间 。 

两 种 方法 的 一 个 区 别 在 于 ， 平 均值 会 受 离 群 值 影响 。 这 是 因为 计算 平均 值 时 包括 了 离 群 
值 。 离 群 值 越 大 ， 对 平均 响应 时 间 的 影响 就 会 越 大 。 

图 2-2 展示 了 20 个 请 求 ， 它 们 响应 时 间 的 范围 比较 典型 。 响 应 时 间 是 从 1 到 5 秒 。 平 均 响 
应 时 间 (平行 且 靠 近 x 轴 的 粗 线 ) 为 2.35 秒 ， 且 90% 的 请 求 发 生 在 4 秒 或 4 秒 以 内 ( 平 
行 且 远离 x 轴 的 粗 线 )。 
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图 2-2: 一 组 典型 的 响应 时 间 


对 于 行为 正常 的 测试 来 说 ， 这 是 常见 的 场景 。 离 群 值 会 影响 分 析 的 准确 性 ， 就 像 图 2-3 显 
示 的 数据 那样 。 
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2-3: 一 组 含有 离 群 值 的 响应 时 间 

这 组 数据 中 包括 一 个 很 大 的 离 群 值 : 有 个 请 求 花费 了 100 秒 。 结 果 第 90 百 分 位 响应 时 间 
和 平均 响应 时 间 的 粗 线 就 调换 了 位 置 。 平 均 响应 时 间 足 到 了 5.95 秒 ， 而 第 90 百 分 位 响 
应 时 间 为 1.0 秒 。 对 于 这 样 的 案例 ， 应 该 考虑 减少 离 群 值 带 来 的 影响 (从 而 降低 平均 响 
应 时 间 )。 

一 般 来 说 ， 像 这 样 的 离 群 值 很 少见 ， 不 过 由 于 GC (垃圾 收集 ) 引入 的 停顿 ，Java 应 用 更 
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容易 发 生 这 种 情况 。( 并 不 是 因为 GC 引入 了 100 秒 的 延迟 ， 而 是 尤其 是 对 于 有 较 小 的 平均 
响应 时 间 的 测试 来 说 ，GC 停顿 会 引入 较 大 的 离 群 值 。) 性 能 测试 中 通常 关注 的 是 第 90 百 
分 位 响应 时 间 (有 时 是 第 95 百 分 位 或 第 99 百 分 位 响应 时 间 ， 这 里 说 第 90 百 分 位 并 没有 
什么 神奇 之 处 )。 如 果 你 只 能 盯 住 一 个 数字 ， 那 最 好 选择 基于 百 分 位 数 的 响应 时 间 ， 因 为 
它 的 减少 会 让 大 多 数 用 户 受益 。 不 过 ， 最 好 一 并 考虑 平均 响应 时 间 和 至 少 一 种 百 分 位 响应 
时 间 ， 你 就 不 会 错过 有 很 大 离 群 值 的 场景 

















负载 生成 器 

有 许多 开源 和 商业 的 负载 生成 器 。 本 书 以 Faban (http://faban.org/) 为 例 ， 这 是 一 个 
开源 的 、 基 于 Java 的 负载 生成 器 。Faban 带 有 一 个 简单 程序 (fhb)， 可 用 来 测试 简单 
URL 的 性 能 : 

% fhb -W 1000 -r 300/300/60 -c 25 http://host:port/StockServlet?stock=SDO 

ops/sec: 8.247 

% errors: 0.0 

avg. time: 0.022 

max time: 0.045 

90th %: 0.030 


95th %: 0.035 
99th %: 0.035 


这 个 测试 例子 中 有 25 个 客户 端 (-c 25) 向 StockServlet 发 送 请 求 (股票 代码 SDO)， 
每 个 请 求 的 周期 时 间 为 1 秒 (-W 1000)。-r 300/390/60 表示 ， 基 准 测试 的 热身 期 为 5 
分 钟 (300 秒 ) ， 接 下 来 是 5 分 钟 测试 周期 和 1 分 钟 减速 期 。 测 试 之 后 ，fhb 报告 该 测 
试 的 OPS 和 各 种 响应 时 间 (由 于 包括 思考 时 间 ， 响 应 时 间 就 成 为 重要 的 度量 ， 而 OPS 
则 在 不 断 变化 ) 。 

只 要 替换 有 限 的 几 个 参数 ，fhb 就 可 以 处 理 POST 数据 ， 用 少量 脚本 就 可 以 处 理 多 个 
URL。 对 于 更 为 复杂 的 测试 来 说 ，Faban 提供 了 很 有 用 的 Java 框架 来 定义 基准 测试 负 
载 生 成 器 。” 











快速 小 结 

1，Java 性 能 测试 中 很 少 使 用 面向 批 处 理 的 测试 (或 者 任何 没有 热身 期 的 测 
试 )， 但 这 种 测试 可 以 产生 很 有 价值 的 结果 。 

2. 其 他 可 以 测量 吞吐 量 或 响应 时 间 的 测试 ， 则 依赖 负载 是 否 以 固定 的 速率 
加 载 (也 就 是 说 ， 基 于 模拟 的 客户 端 思 考 时 间 )。 


2.3 原则 3: 用 统计 方法 应 对 性 能 的 变化 


第 3 条 原则 讲 的 是 性 能 测试 的 结果 会 随时 间 而 变 。 即 便 程 序 每 次 处 理 的 数据 集 都 相同 ， 产 
生 的 结果 也 仍然 会 有 差别 。 因 为 有 很 多 因素 会 影响 程序 的 运行 ， 如 机 器 上 的 后 台 进 程 ， 网 
























































注 4: fhb 的 命令 行 ， 请 参见 http://faban.org/1.2/docs/man/fhb.html。 一 一 译 者 注 
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络 时 不 时 的 拥堵 等 。 好 的 基准 测试 不 会 每 次 都 处 理 相 同 的 数据 集 ， 而 是 会 在 测试 中 制造 一 
些 随机 行为 以 模拟 真实 的 世界 。 这 就 会 带 来 一 个 问题 运行 结果 之 间 的 差别 ， 到 底 是 因为 
性 能 有 变化 ， 还 是 因为 测试 的 随机 性 。 

可 用 以 下 方法 来 解决 这 个 问题 ， 即 多 次 运行 测试 ， 然 后 对 结果 求 平均 。 当 被 测 代 码 发 生变 
化 时 ， 就 再 多 次 运行 测试 ， 对 结果 求 平均 ， 然 后 比较 两 个 平均 值 。 这 听 起 来 似乎 很 容易 。 
不 幸 的 是 ， 事 情 并 没有 想象 中 那么 简单 。 要 想 弄 清楚 测试 间 的 差别 是 真实 的 性 能 变化 还 是 
随机 变化 并 不 容易 一 一 这 就 是 性 能 调 优 的 关键 所 在 ， 不 仅 需 要 科学 引领 道路 ， 还 需要 懂 点 
艺术 才能 玩 得 转 。 

比较 基准 测试 的 结果 时 ， 我 们 不 可 能 知道 平均 值 的 差异 是 真 的 性 能 有 差 还 是 随机 涨 落 。 最 
好 的 办 法 是 先 假设 “平均 值 是 一 样 的 "， 然 后 确定 该 命题 为 真 时 的 几率 。 如 有 果 命题 很 大 几 
率 为 假 ， 我 们 就 有 信心 认为 平均 值 是 真 的 有 差别 〈 虽 然 我 们 永远 无 法 100% 肯定 ) 。 


像 这 种 因 代码 更 改 而 进行 的 测试 称 为 回归 测试 。 在 回归 测试 中 ， 原 先 的 代码 称 为 基线 
(baseline) ， 而 新 的 代码 称 为 试 样 (specimen)。 考 虑 一 个 批 处 理 程序 的 案例 ， 基 线 和 试 样 
都 执行 3 次 ， 表 2-2 给 出 了 所 用 的 时 间 。 


表 2-2: 假设 两 组 测试 的 执行 时 间 










































































迭代 基线 ( 秒 ) 试 样 ( 秒 ) 
第 1 次 1.0 0.5 

第 2 次 0.8 1.25 

第 3 次 1T2 0.5 
平均 值 〈 秒 ) 1 0.75 











试 样 的 平均 值 表明 代码 性 能 改善 了 25%。 这 个 测试 所 反映 出 来 的 25% 的 改善 ， 我们 真 的 
能 相信 多 少 ? 看 上 去 很 美好 : 试 样 中 3 个 有 2 个 的 值 小 于 基线 平均 值 ， 看 起 来 改进 的 步子 
很 大 但 是 如 果 用 本 节 介 绍 的 方法 分 析 这 些 结果 就 会 得 出 结论 ， 试 样 和 基线 性 能 相同 
的 概率 有 43%。 观 察 到 的 这 些 数字 说 明 ， 两 组 测试 的 基本 性 能 在 43% 的 时 间 内 是 相同 的 ， 
因此 性 能 不 相同 的 时 间 只 占 57%。 顺 便 说 一 句 ，57% 的 时 间 内 性 能 不 相同 和 性 能 改善 25% 
也 完全 不 是 一 回 事 ， 稍 后 讨论 这 个 问题 。 

上 述 概率 看 起 来 和 我 们 的 预期 有 差别 ， 其 原因 是 测试 的 结果 变化 很 大 。 一 般 来 说 ， 结 果 数 
据 差 别 越 大 ， 就 越 难 判断 平均 值 之 间 的 差异 是 真实 的 差别 还 是 随机 变动 。 

此 处 的 数字 43%， 是 学 生 t 检验 (Student's t-test， 以 下 称 t 检 验 ) 得 出 的 结果 ， 这 是 一 种 
针对 一 组 数据 及 其 变化 的 统计 分 析 。 顺 便 说 一 句 ,，“ 学 生 ” 是 首次 发 表 该 检验 的 科学 家 ”的 
笔名 ， 而 不 是 提醒 你 (至少 我 ) 那些 年 在 学 校 睡 过 的 统计 学 课 。t 检验 计算 出 的 p 值 ， 是 
指 原 假设 (null hypothesis) 成 立时 “的 概率 。( 有 一 些 程序 和 类 库 可 以 计算 t 检 验 ， 本 节 的 
结果 是 用 Apache Commons Mathematics 类 库 中 的 TTest 计算 的 。) 


回归 测试 中 的 原 假设 是 指 假设 两 组 测试 的 性 能 一 样 。 这 个 例子 中 的 p 值 大 约 为 43%， 意 思 




























































































注 5: 即 威廉 * 戈 斯 特 。 一 一 译 者 注 
注 6: 原文 为 “false”"， 有 误 。 一 一 译 者 注 
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是 我 们 相信 这 两 组 测试 平均 值 相同 的 概率 为 43%。 相 反 ， 我 们 相信 平均 值 不 同 的 概率 为 
57%。 


57% 意味 着 什么 ， 两 组 测试 的 平均 值 不 相同 ?严格 来 讲 ， 这 并 不 意味 着 我 们 相信 性 能 改善 
25% 的 概率 有 57% 一 一 它 只 是 意味 着 ， 我 们 相信 结果 不 同 的 概率 为 57%。 性 能 可 能 改善 了 
25%， 也 可 能 125% ， 甚 至 试 样 的 实际 性 能 也 许 比 基 线 还 糟糕 。 最 大 的 可 能 则 是 测量 出 来 
的 差别 就 是 接近 于 真实 的 差异 (特别 是 随 着 p 值 下 降 越 是 如 此 )， 只 是 我 们 永远 无 法 肯定 


这 点 。 



































统计 学 及 其 语义 
正确 表述 1 检验 结果 的 语 身 应 该 像 这 样 : 试 样 与 基线 有 差别 的 可 能 性 为 57%， 差 别 预 
计 最 大 有 25%。 


不 过 通常 会 这 么 描述 : 结果 改善 25% 的 置信 和 度 (confidence level) 为 57%。 确 切 地 说 ， 
这 种 说 法 与 前 面 并 不 一 致 ， 也 会 让 统计 学 家 们 抓 狂 ， 不 过 这 种 说 法 简短 而 易于 为 人 接 
受 ， 也 不 算 太 离谱 。 统 计 学 分 析 经 常会 涉及 不 确定 性 ， 如 果 语 义 可 以 精确 地 陈述 ， 自 
然 能 让 人 更 好 地 理解 这 种 不 确定 性 。 不 过 对 于 那些 基础 问题 已 经 很 清楚 的 领域 ， 语 义 
描述 上 有 些 悄然 简化 也 是 在 所 难免 的 。 











t 检 验 通 常 与 a 值 一 起 使 用 ,0 值 是 一 个 点 (有 点 随意 )， 如 果 结 果 达 到 这 个 点 那 就 是 统计 
显著 性 (statistical significance)。 通 常 a 值 设置 为 0.1 意思 是 说 ， 如 果 试 样 和 基线 只 在 
10% (0.1) 的 时 间 里 相同 (或 反 过 来 讲 ，90% 的 时 间 里 试 样 和 基线 有 差异 )， 那 结果 就 被 
认为 是 统计 显著 。 其 他 常用 的 a 值 还 有 0.05 (置信 度 为 95%) 或 0.01 (置信 度 为 99%)。 
如 果 测 试 的 p 值 小 于 1-a 值 ， 则 被 认为 是 统计 显著 。 


因此 ， 查 找 代码 性 能 变化 的 正确 方法 是 先决 定 一 个 显著 性 水 平一 一 比如 0.1 一 一 然后 用 t 检 
验 判 定 在 这 个 显著 性 水 平 上 试 样 是 否 与 基线 有 差别 。 请 仔细 搞 明白 ， 如 果 显 车 性 测试 失 
败 ， 意 味 着 什么 。 在 这 个 例子 中 ，p 值 为 0.43， 在 置信 度 为 90% 的 情况 下 我 们 不 能 说 有 显 
车 性 差异 ， 而 结果 表示 平均 值 不 相同 。 事 实 上 ， 测 试 没 有 显著 性 差异 并 不 意味 着 结果 无 关 
紧要 ， 它 仅仅 表示 这 个 测试 没 法 形成 定论 。 
























































统计 学 中 的 显著 性 与 重要 性 
显著 性 差异 并 不 意味 着 统计 结果 对 我 们 更 重要 。 平 均 为 1 秒 的 变化 很 小 的 基线 ， 和 平 
均 为 1.01 秒 的 变化 很 小 的 试 样 ， 其 p 值 可 能 为 0.01: 结果 的 差别 有 99% 的 置信 度 。 
但 结果 的 差别 只 有 19%。 现 在 假定 另外 一 个 测试 ， 试 样 和 基线 有 10% 的 变动 ， 但 是 
值 为 0.2， 即 非 统计 显著 。 哪 个 测试 的 结果 最 为 重要 ? 这 需要 更 多 时 间 来 审查 。 
审查 后 发 现 ， 虽 然 相 差 10% 的 测试 的 置信 度 低 ， 但 在 用 时 上 更 加 优化 (如 果 可 能 所 
话 ， 可 以 用 更 多 数据 来 验证 测试 结果 是 否 真 的 统计 显著 ) 。 仅 仅 因为 1% 差异 的 可 能 性 
更 大 ， 并 不 意味 着 它 更 重要 。 














从 统计 学 上 说 ， 测 试 不 能 得 出 定论 通常 是 因为 样本 数据 不 足 。 迄 今 为 止 ， 示 例 所 芳 虑 的 基 
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线 和 试 样 各 是 3 次 迭代 。 再 加 3 次 迭代 ， 结 果 会 变 成 这 样 : 基线 的 迭代 结果 分 别 是 1、1.2 
和 0.8 秒 ， 试 样 的 迭代 结果 分 别 是 0.5、1.25 和 0.5 秒 ? 随 着 数据 的 增加 ，p 值 就 从 0.43 跌 
落 到 了 0.19， 这 意味 着 结果 有 差异 的 概率 从 57% 上 升 到 了 81%。 运 行 更 多 测试 迭代 ， 再 
加 3 个 数据 点 后 ， 概 率 则 增加 到 了 91% 一 一 超过 了 常规 的 统计 显著 性 水 平 。 

运行 更 多 测试 迭代 从 而 达到 某 个 统计 显著 性 水 平 的 方法 并 不 总 是 可 行 。 严 格 来 说 ， 这 么 做 
也 没有 必要 。 实 际 上 ， 用 以 判定 统计 显著 性 的 a 值 可 以 任意 选择 ， 虽 然 通 常 选 的 都 是 普遍 
认可 的 值 。 置 信和 度 为 90% 时 ，p 值 0.11 不 是 统计 显著 ,但 置信 和 度 为 89% 时 ， 它 就 是 统计 
显著 了 。 

这 里 得 到 结论 : 回归 测试 并 不 是 非 黑 即 白 的 科学 。 对 于 一 组 数据 ， 不 经 过 统计 分 析 你 就 没 
法 弄 清 楚 数 字 的 含义 ， 也 就 没 法 进行 比较 和 判断 。 此 外 ， 由 于 概率 的 不 确定 性 ， 即 便 用 统 
计 分 析 也 不 能 给 出 完全 可 靠 的 结果 。 性 能 调 优 工程 师 的 工作 就 是 : 考虑 一 堆 数据 (或 者 他 
们 的 均值 )、 和 弄 清 各 种 概率 、 决 定 往 哪 使 力 。 


快速 小 结 

1， 正 确 判 定 测试 结果 间 的 差异 需要 统计 分 析 ， 通 过 统计 分 析 才 能 确定 这 些 
差异 是 不 是 归 因 于 随机 因素 。 

2， 可 以 用 严谨 的 t 检 验 来 比较 测试 结果 ， 实 现 上 述 目 的 。 

3. t 检 验 可 以 告知 我 们 变动 存在 的 概率 ， 却 无 法 告诉 我 们 哪 种 变动 该 忽略 ， 
而 哪 种 该 追查 。 如 何在 两 者 之 间 找 到 平衡 ， 是 性 能 调 优 工程 的 艺术 魅力 
所 在 。 


2.4 原则 4: 尽早 频繁 测试 


这 是 第 4 条 也 是 最 后 的 原则 。 性 能 极 客 们 (包括 我 ) 喜欢 将 性 能 测试 作为 开发 周期 不 可 或 
缺 的 一 部 分 。 理 想 情 况 下 ， 在 代码 提交 到 中 心 源 代码 仓库 前 ， 性 能 测试 就 应 该 作为 过 程 的 
一 部 分 运行 ， 如 末代 码 引 入 了 性 能 衰减 ， 提 交 就 会 被 阻止 。 

本 章 中 ， 建 议 之 间 有 些 内 在 的 冲突 ， 而 建议 和 现实 之 间 也 有 冲突 。 好 的 性 能 测试 包含 了 许 

多 代码 一 一 至 少 中 等 规模 的 介 基 准 测 试 是 这 样 。 它 需要 在 新 老 代 码 上 重复 运行 多 次 ， 以 便 

确认 性 能 真 的 有 差别 而 不 是 随机 变动 。 在 大 型 项 目 中 ， 这 可 能 需要 花费 好 几 天 或 者 一 周 时 

间 ， 这 使 得 在 提交 代码 到 仓库 之 间 运 行 性 能 测试 变 得 不 那么 现实 。 

通常 的 软件 开发 周期 也 没 使 事情 变 得 更 容易 。 项 目 日 程 通 常会 固定 特性 的 发 布 日 期 : 所 有 

的 代码 变动 必须 在 发 布 周期 的 早 些 时 候 就 提交 到 源 代码 仓库 ， 而 剩 下 的 时 间 则 贡献 给 了 将 

新 版 本 中 的 缺陷 (包括 性 能 问题 ) 拌 落 和 干净。 这 导致 了 提早 测试 的 两 个 问题 。 

(1) 为 了 赶 上 项 目 进 度 ， 开 发 人 员 会 在 时 间 压 力 之 下 提交 代码 ， 而 一 旦 有 时 间 修 复 性 能 问 
题 时 ， 又 变 得 路 路 不 前 。 早 期 提交 代码 所 导致 的 1% 的 性 能 衰减 ， 开 发 人 员 愿 意 承 受 压 
力 ， 修 复 问 题 。 而 等 到 功能 特性 截止 夜 才 提 交 的 代码 ， 如 有 果 性 能 衰减 20%， 开 发 人 员 
就 只 能 以 后 再 处 理 了 。 

(2) 代码 发 生变 化 ， 性 能 也 会 随 之 而 变 。 这 个 道理 与 测试 全 应 用 (以 及 可 能 有 的 模块 测试 ) 
相同 : 堆 内 存 的 使 用 情况 会 改变 ， 代 码 编译 也 会 改变 ， 等 等 。 
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开发 过 程 中 无 论 有 多 少 困 难 ， 频 繁 的 性 能 测试 仍然 很 重要 ， 即 便 有 时 候 不 能 立刻 解决 问 
题 。 比 如 代码 性 能 豪 减 了 5%， 随 着 开发 的 推进 ， 开 发 人 员 或 许可 以 采用 以 下 措施 ， 如果 
他 的 代码 依赖 有 待 集成 的 功能 特性 ， 那 就 等 该 功能 可 用 时 ， 再 稍微 调整 代码 ， 性 能 衰减 的 
问题 或 许 就 解决 了 。 这 是 合理 的 情况 ， 即 便 这 意味 着 性 能 测试 不 得 不 几 个 星期 都 伴随 着 
5% 的 性 能 误 减 〈 这 是 不 幸 的 事 ， 却 又 无 法 避免 ， 还 可 能 掩盖 了 其 他 问题 )。 
另 一 方面 ， 如 果 性 能 衰减 只 有 等 架构 更 改 才能 修复 的 话 ， 那 就 最 好 在 其 余 代码 开始 依赖 新 
代码 实现 之 前 ， 尽 早 捕获 和 解决 它 。 这 是 一 种 平衡 ， 需 要 仔细 分 析 ， 甚 至 还 常常 需要 点 政 
治 技巧 。 
遵循 以 下 准则 ， 可 以 使 得 尽早 频繁 测试 变 得 最 有 用 。 
自动 化 一 切 
所 有 的 性 能 测试 都 应 该 脚本 化 〈 或 者 程序 化 ， 虽 然 脚 本 更 简单 ) 。 全 部 环境 都 必须 通过 
脚本 安装 和 配置 新 代码 〈 创 建 数据 库 连 接 、 建 立 用 户 账号 等 )， 然 后 用 脚本 运行 测试 集 。 
所 谓 自动 化 ， 还 不 止 这 些 : 脚本 必须 能 够 多 次 运行 测试 ， 对 结果 进行 t 检 验 分 析 ， 并 能 
生成 置信 和 度 报告 ， 说 明 统 计 结 果 是 相同 ， 还 是 不 同 ， 如 果 不 同 ， 相 差 多 少 。 
在 测试 运行 前 ， 必 须 通 过 自动 化 技术 确保 机 器 处 于 已 知 状态 必须 检查 是 否 有 不 希望 运 
行 的 进程 ， 操 作 系 统 配置 是 否 正确 ， 等 等 。 只 有 每 轮 运行 时 保持 相同 的 环境 ， 性 能 测试 
才 是 可 重复 的 。 自 动 化 过 程 中 必须 考虑 这 点 。 
测试 一 切 
必须 自动 收集 能 想象 到 的 每 一 点 数据 ， 以 便 进行 后 续 分 析 。 这 些 数 据 包 括 整个 运行 过 程 
中 采集 的 系统 信息 : CPU 使 用 率 、 磁 盘 使 用 率 、 网 络 使 用 率 和 内 存 使 用 率 等 。 数 据 还 
包括 应 用 的 日 志 一 一 应 用 产生 的 日 志 ， 以 及 垃圾 收集 器 的 日 志 。 理 想 情 况 下 ， 还 应 该 包 
括 JFR 记录 的 信息 (参见 第 3 章 ),， 或 者 对 系统 影响 较 小 的 性 能 分 析 (profiling) 信息 ， 
周期 性 线程 堆栈 ， 以 及 其 他 堆 分 析 数 据 ， 例 如 直方 图 或 者 全 堆 的 转 储 信息 (尤其 是 全 堆 
转 储 ， 需 要 占用 大 量 空间 ， 没 有 必要 长 期 保留 )。 


如 果 适 用 的 话 ， 监 控 信 息 还 必须 包括 系统 其 他 部 分 的 数据 : 例如 ， 如 果 程 序 使 用 数据 
库 ， 就 应 该 包括 数据 库 机 器 的 系统 统计 数据 ， 以 及 所 有 的 数据 库 诊 断 输 出 (包括 Oracle 
的 Automatic Workload Repository [AWR] 这 样 的 性 能 报告 )。 


这 些 数据 可 以 指导 所 有 未 被 覆盖 的 回归 分 析 。 如 果 CPU 使 用 率 上 升 ， 就 需要 参考 性 能 
分 析 信 息 ， 午 清楚 是 什么 花费 了 这 么 多 时 间 。 如 果 GC 时 间 变 长 ， 就 该 查阅 堆 性 能 分 析 
信息 ， 搞 明白 是 什么 消耗 了 这 么 多 内 存 。 如 果 CPU 和 GC 时 间 都 减少 ， 某 些 地 方 的 竞 
争 可 能 降低 了 性 能 : 栈 数 据 可 以 指示 特定 的 同步 瓶 须 (参见 第 9 章 )，JFR 记录 可 用 来 
发 现 应 用 的 延迟 ， 数 据 库 日 志 也 可 以 发 现 数据 库 竞 争 加 剧 的 线索 。 

当 发 现 性 能 衰减 源 时 ， 需 要 进一步 巡查 ， 找 到 更 多 可 用 数据 ， 更 多 可 以 追踪 的 线索 。 正 
如 第 1 章 所 讨论 的 ， 发 生性 能 豪 减 的 未 必 是 JVM。 测 量 一切 ， 从 而 确保 分 析 的 正确 性 。 

在 真实 系统 上 运行 

在 单 核 笔记 本 上 运行 测试 ， 与 在 256 线程 SPARC CPU 机 器 上 有 很 大 的 不 同 。 从 线程 效 
应 上 来 说 ， 原 因 很 清楚 : 机 器 规模 越 大 ， 同 时 能 运行 的 线程 就 越 多 ， 从 而 能 减少 应 用 线 
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程 对 CPU 的 竞争 。 与 此 同时 ， 大 规模 系统 也 会 遇 到 小 型 笔记 本 上 会 被 忽略 的 同步 性 能 
瓶颈 。 

还 有 其 他 重大 的 性 能 差异 ， 即 便 乍 一 眼看 上 去 不 那么 明显 。 许 多 重要 的 性 能 调 优 标志 ， 
它们 的 默认 值 是 基于 JVM 运行 的 底层 硬件 系统 计算 出 来 的 。 平 台 和 平台 之 间 所 编译 出 
来 的 代码 也 不 同 。 缓 存 一 一 软件 缓存 以 及 更 重要 的 硬件 缓存 一 一 在 不 同系 统 和 不 同人 负载 
下 也 是 不 一 样 的 ， 等 等 。 

因此 ， 除 非 在 预期 的 负载 和 预期 的 硬件 下 测试 ， 否 则 永远 无 法 在 测试 中 完全 了 解 特定 生 
产 环境 下 的 性 能 。 可 以 在 配置 较 低 的 硬件 上 运行 规模 较 小 的 测试 ， 以 此 来 模拟 和 外 推 。 
在 现实 测试 中 ， 复 制 生产 环境 相当 困难 或 昂贵 。 但 外 推 只 是 简单 的 预测 ， 即 便 在 最 好 的 
情况 下 ， 预 测 也 可 能 是 错 的 。 大 规模 系统 远 不 只 是 将 各 部 分 加 起 来 那么 简单 ， 没 有 什么 
测试 能 够 代替 在 真实 系统 上 的 负载 了 。 


快速 小 结 

1. 虽然 频繁 的 性 能 测试 很 重要 ， 但 并 非 毫 无 代价 ， 在 日 常 的 开发 周期 中 需 
要 仔细 其 酌 。 

2， 自动 化 测试 系统 可 以 收集 所 有 机 器 和 程序 的 全 部 统计 数据 ， 这 可 以 为 查 
找 性 能 衰减 问题 提供 必 不 可 少 的 线索 。 







































































2.5 小结 

性 能 测试 包括 各 种 权衡 。 面 对 诸多 相互 制约 的 选择 ， 我 们 能 否 做 出 适当 的 决策 ， 对 于 系统 
性 能 能 否 提升 至 关 重 要 。 

性 能 测试 应 该 先 测 哪 部 分 ， 与 我 们 的 经 验 和 直觉 息息相关 。 微 基准 测试 在 这 方面 的 作用 最 
小 ， 它 的 用 途 仅 限于 为 某 些 操作 设立 宽泛 的 指导 。 这 为 其 他 测试 留 下 广泛 的 施展 空间 ， 从 





小 模块 的 测试 到 大 规模 多 层 的 应 用 环境 。 所 有 这 些 测 试 都 有 某 方面 的 价值 ， 如 何 选 择 就 得 
依靠 经 验 和 直觉 了 。 不 过 最 终 部 署 到 生产 环境 中 之 后 ， 除 了 全 应 用 测试 ， 就 没什么 可 选 


可 
与 此 类 似 ， 哪 些 代码 导致 或 没 导 致 性 能 衰减 ， 并 不 总 是 星 白 分 明 的。 程序 时 不 时 会 表现 出 


只 有 到 那 时 才能 理解 所 有 与 性 能 相关 的 问题 以 及 全 部 影响 。 








随机 行为 ， 而 一 旦 引入 了 随机 性 ， 我 们 就 再 也 无 法 100% 确定 这 些 数据 意味 着 什么 了 。 使 





用 统计 分 析 有 助 于 使 结果 变 得 更 客观 ， 但 即便 如 此 ， 仍 然 免不了 主观 脐 断 。 理 解 这 些 数据 


背后 的 概率 及 其 意义 ， 有 助 于 降低 主观 性 。 
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性 能 分 析 过 程 中 的 一 切 都 要 能 可 视 化 ， 从 而 了 解 应 用 内 部 及 应 用 所 在 的 环境 发 生 了 什么 。 
可 视 化 的 关键 全 在 于 工具 ， 所 以 性 能 调 优 也 完全 在 于 工具 。 

在 第 2 章 中 ， 我 强调 了 用 数据 驱动 性 能 调 优 的 重要 性 : 你 必须 对 应 用 的 性 能 进行 测量 ， 理 
解 这 些 测 量 指标 的 含义 是 什么 。 性 能 分 析 应 该 与 数据 驱动 的 调 优 类 似 : 为 了 让 程序 执行 得 
更 快 ， 你 必须 掌握 精确 的 运行 数据 。 本 章 的 主题 就 是 如 何 获取 并 理解 这 些 数 据 。 

有 许多 工具 可 以 提供 Java 应 用 的 执行 信息 ， 当 然 全 部 介绍 一 遍 是 不 现实 的 。 最 重要 的 工具 
多 数 都 来 自 JDK 或 者 开源 站 点 http:Wjava.net。 虽 然 还 有 其 他 开源 和 商业 工具 ， 但 为 方便 起 
见 ， 本 章 关 注 的 主要 是 JDK 所 提供 的 工具 。 


3.1 操作 系统 的 工具 和 分 析 


实际 上 性 能 分 析 的 起 点 与 Java 无 关 : 它 是 一 组 操作 系统 自 带 的 基本 监控 工具 。 在 基于 
Unix 的 系统 上 上， 有 sar (System Accounting Report) 及 其 组 成 工具 ， 例 如 vmstat、iostat、 
prstat 等 。 在 Windows 上 ， 有 图 形 化 资源 监视 器 以 及 像 typeperf 这 样 的 命令 行 工具 。 

无 论 何 时 运行 性 能 测试 ， 都 应 该 收集 操作 系统 的 数据 ， 至 少 需要 收集 CPU、 内 存 和 磁盘 使 
用 率 的 信息 。 如 有 果 程 序 使 用 网 络 ， 还 应 该 收集 网 络 使 用 率 。 如 有 果 是 自动 化 性 能 测试 ， 还 需 
要 依靠 命令 行 工具 (即使 是 Windows 系统 )。 不 过 ， 即 便 可 以 通过 交互 方式 进行 测试 ， 也 
最 好 用 命令 行 工具 捕获 输出 ， 而 不 是 一 边 盯 着 GUI， 一 边 琢磨 它 的 意思 。 在 分 析 的 时 候 可 
以 再 次 将 这 些 输出 图 形 化 。 


3.1.1 CPU 使 用 率 
我 们 先 看 CPU 的 监控 ， 以 及 监控 所 能 告诉 我 们 的 关于 Java 程序 的 信息 。 通 常 CPU 使 用 率 
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可 以 分 为 两 类 : 用 户 态 时 间 和 系统 态 时 间 (Windows 上 被 称 作 privileged time)。 用 户 态 时 
间 是 CPU 执行 应 用 代码 所 占 时 间 的 百分比 ， 而 系统 态 时 间 则 是 CPU 执行 内 核 代 码 所 占 时 
间 的 百分比 。 系 统 态 时 间 与 应 用 相关 ， 比 如 应 用 执行 IO 操作 ， 系 统 就 会 执行 内 核 代码 从 
磁盘 读 取 文 件 ， 或 者 将 缓冲 数据 发 送 到 网 络 ， 等 等 。 任 何 使 用 底层 系统 资源 的 操作 ， 都 会 
导致 应 用 占用 更 多 的 系统 态 时 间 。 


性 能 调 优 的 目的 是 ， 在 尽 可 能 短 的 时 间 内 让 CPU 使 用 率 尽 可 能 地 高 。 这 听 起 来 有 点 不 合 
常理 。 或 许 你 此 时 正 坐 在 电脑 旁 ， 看 着 它 拼命 挣扎 ， 因 为 CPU 使 用 率 已 经 是 100% 了 。 
好 ， 我 们 先 来 考虑 一 下 ，CPU 使 用 率 到 底 反 映 了 什么 。 


首先 需要 注意 的 是 ，CPU 使 用 率 是 一 段 时 间 内 的 平均 数 一 一 5 秒 、30 秒 ， 也 可 能 只 有 1 
秒 那 么 短 (不 过 永远 不 会 比 这 还 要 短 )。 比 如 ，10 分 钟 内 一 个 程序 执行 的 CPU 使 用 率 为 
50%。 如 果 代 码 调 优 之 后 ，CPU 使 用 率 达 到 了 100%， 说 明 程序 的 性 能 翻 了 倍 : 程序 只 需 
要 执行 5 分 钟 就 可 以 了 。 如 果 性 能 再 翻 倍 ，CPU 仍 将 是 100%， 而 执行 完 程 序 只 要 2.5 分 
钟 。CPU 使 用 率 表示 程序 以 多 高 的 效率 使 用 CPU， 所 以 数字 越 大 ， 性 能 越 好 。 


如 果 在 Linux 桌面 系统 上 运行 vmstat 1， 可 以 得 到 类 似 如 下 的 儿 行 信息 (每 隔 一 秒 显 示 
一 行 ) 9 



























































% vmstat 1 

procs ----------- memory---------- --- Swap-- ----- io---- -system-- ---- cpu---- 

r b swpd free buff cache si so i bo in cs us sy id wa 
0 © 1797836 1229068 1508276 0 0 0 9 2250 3634 41 355 0 

2 0 0 1801772 1229076 1508284 0 0 0 8 2304 3683 43 3 54 0 
0 0 1813552 1229084 1508284 0 0 3 22 2354 3896 42 3 .55 0 
0 0 1819628 1229092 1508292 0 0 0 84 2418 3998 43 2 55 0 


为 了 便于 说 明 问 题 ， 这 个 运行 示例 程序 只 有 一 个 活跃 线程 。 不 过 即便 有 多 个 线程 ， 也 可 以 
应 用 如 下 概念 。 

每 秒 内 ，CPU 被 占用 450 毫秒 〈42% 的 时 间 执 行 用 户 代码 ，3% 的 时 间 执 行 系统 代码 )。 相 
应 地 ，CPU 空闲 550 毫秒。CPU 空 闪 可 能 有 以 下 原因 。 

。 应 用 被 同步 原 语 阻塞 ， 直 至 锁 释 放 才 能 继续 执行 。 

。 应 用 在 等 待 某 些 东 西 ， 例 如 数据 库 调用 所 返回 的 响应 。 

。 应 用 的 确 是 无 所 事 事 。 


前 面 2 种 情况 通常 都 可 用 来 识别 某 些 问题 。 如 有 果 竞 争 降 低 ， 或 优化 数据 库 使 之 发 送 响 应 更 
快 ， 程序 运行 都 能 变 得 更 快 ， 平均 CPU 使 用 率 也 会 上 升 当然 ， 得 假定 没有 其 他 继续 阻 
塞 应 用 的 问题 )。 

第 3 点 则 常常 使 人 疑惑 。 如 果 应 用 有 事情 做 (而 不 是 因为 等 待 锁 或 者 其 他 资源 而 无 事 可 
干 )，CPU 就 会 分 配 一 些 周期 执行 应 用 代码 。 这 是 一 般 性 原则 ， 并 不 只 针对 Java。 比 如 ， 
包含 无 限 循环 的 简单 脚本 。 这 段 脚 本 执行 时 ， 将 消耗 100% 的 CPU。 以 下 的 Windows 批 处 
E 任 务 就 是 这 么 和 干 的 : 

ECHO OFF 


:BEGIN 
ECHO LOOPING 
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GOTO BEGIN 
REM We never get here… 
ECHO DONE 


考虑 一 下 ， 如 果 这 段 脚 本 没有 消耗 100%CPU， 那 意味 着 什么 。 意 味 着 ， 操 作 系 统 还 有 些 
事 可 做 一 一 它 可 以 打印 一 行 L00PING 一 一 却 选 择 了 空间 。 这 种 情况 下 ， 空 并 没有 什么 好 
处 ， 如 果 我 们 正在 进行 一 些 有 用 〈 耗 时 ) 的 计算 ,那么 迫使 CPU 周期 性 空 几 只 会 使 我 们 
得 到 响应 的 时 间 变 得 更 长 。 
如 果 在 单 CPU 机 器 上 运行 上 述 肢 本， 多数 时 候 你 不 会 注意 到 它 的 运行 。 不 过 一 旦 开启 新 
程序 ， 或 者 测量 其 他 程序 的 运行 时 间 ， 你 就 能 看 到 影响 了 。 操 作 系 统 擅长 为 争 用 CPU 周 
期 的 程序 分 配 时 间 片 ， 但 新 程序 可 用 的 CPU 变 少 了 ， 它 也 就 运行 得 更 慢 。 所 以 基于 这 种 
经 验 ， 人 们 有 时 会 认为 ， 在 其 他 程序 可 能 需要 CPU 周期 时 预 留 一 些 空间 周期 ， 没准 是 个 
好 主意 。 


但 操作 系统 无 法 猿 到 你 接 下 来 想 做 什么 ， 所 以 (默认 情况 下 ) 它 会 尽 可 能 执行 一 切 而 不 是 
让 CPU 空闲 。 

































































限制 程序 所 用 的 CPU 


尽 可 能 利用 CPU 周期 运行 程序 可 以 使 程序 性 能 最 大 化 。 不 过 有 时 你 并 不 希望 如 此 。 比 
如 ， 你 运行 SETI@home'， 它 将 消耗 你 机 器 所 有 可 用 的 CPU 周期 。 这 在 你 不 干 活 的 时 
候 没事 ， 上 网 冲浪 或 者 写 文 档 的 时 候 也 没事 ， 否 则 就 会 降低 你 的 生产 率 。 (不妨 考虑 一 
下 如 果 你 正在 玩 CPU 密集 型 游戏 ， 这 样 做 会 发 生 什 么 。) 


操作 系统 有 许多 机 制 可 用 来 人 为 限定 程序 所 使 用 的 CPU 一 一 事实 上 ， 如 果 有 程序 需要 
使 用 CPU， 它 就 会 退出 空闲 周期 。 进 程 的 优先 级 也 可 以 改变 ， 所 以 那些 后 侣 任务 既 不 
会 与 你 想 运 行 的 程序 争 用 CPU， 也 不 会 让 CPU 处 于 空闲 状态 。 这 些 技 术 超 出 了 我 们 
讨论 的 范围 。 郑 重 说 一 向 ，SETI@home 可 以 让 你 配置 优先 级 ， 除 非 你 允许 ， 否 则 和 它 不 会 
真 的 占用 你 机 器 的 所 有 空余 周期 。 











二 二 


. Java 和 单 CPU 的 使 用 率 

再 回来 讨论 Java 应 用 一 一 CPU 周期 性 空闲 意味 着 什么 ? 这 依赖 于 应 用 的 类 型 。 如 果 应 用 
代码 是 批 处 理 类 型 ， 工 作 量 固定 ， 你 应 该 永远 都 不 会 看 到 CPU 空间 ， 因 为 这 意味 着 没事 
可 做 。 提 高 CPU 使 用 率 ， 一 直 都 是 批 处 理 任务 的 目的 ， 因 为 任务 会 很 快 完 成 。 如 果 CPU 
已 经 达到 100%， 你 仍然 可 以 寻找 优化 ， 使 得 工作 完成 的 更 快 (也 要 尽量 保持 100%CPU 使 
用 率 )。 


如 果 测 试 接收 请 求 的 服务 器 应 用 ， 就 可 能 出 现 因 无 事 可 做 而 出 现 的 空 闻 : 例如 ，Web 服务 
器 已 经 处 理 完 所 有 未 完成 的 HITP 请 求 ， 正 在 等 待 下 一 个 请 求 的 时 候 。 这 就 引入 了 平均 时 
间 。 上 述 vmstat 的 示例 来 自 一 个 每 秒 接收 一 个 请 求 的 应 用 服务 器 。 应 用 服务 器 花 450 毫 
秒 处 理 请 求 一 一 意思 是 CPU 被 100% 占用 450 毫秒 ，550 毫秒 没有 占用 。 这 就 是 所 报告 的 
CPU 被 占用 45% 。 






































注 1: 这 是 利用 全 球 联 网 计算 机 搜寻 外 星 文明 的 科学 实验 。 一 一 译 者 注 
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虽然 经 常 因为 CPU 占用 发 生 的 时 间 粒 度 很 小 而 难以 可 视 化 ， 但 运行 负载 型 应 用 时 CPU 的 
行为 就 是 这 种 爆发 式 的 。 如 果 CPU 每 半 秒 收 到 一 个 请 求 而 平均 处 理 时 间 为 225 毫秒 ， 也 
能 从 宏观 层面 看 到 同样 的 模式 。CPU 被 占用 225 毫秒 ， 空 闲 275 毫秒 ， 再 占用 225 毫秒 ， 
空闲 275 毫秒 : 平均 来 看 ， 被 占用 45%， 空 用 55%。 


如 果 应 用 优化 之 后 每 个 请 求 只 需要 400 毫秒 ， 整 体 CPU 使 用 率 就 会 减少 (到 40%)。 这 
是 仅 有 的 降低 CPU 使 用 率 有 意义 的 情况 一 一 当 系 统 负载 量 固 定 并 且 应 用 不 受 外 部 资源 限 
制 的 时 候 。 另 一 方面 ， 优 化 也 使 系统 可 以 承担 更 多 负载 ， 最 终 提高 CPU 使 用 率 。 微 观 来 
看 ， 这 种 情况 下 的 优化 仍然 是 使 CPU 使 用 率 在 短 时 间 内 (执行 请 求 花费 400 毫秒 ) 变 为 
100% 一 一 只 是 CPU 峰值 持续 的 时 间 很 得， 事实 上， 大 多 数 工具 都 不 会 将 其 标记 为 100%。 


2. Java 和 多 CPU 的 使 用 率 

上 面 的 例子 是 假定 在 单个 CPU 上 运行 的 单线 程 ， 但 概念 与 一 般 情 况 下 多 CPU 多 线程 相同 。 
多 线程 倾向 于 以 有 趣 的 方式 平均 使 用 CPU 一 一 第 5 章 有 这 样 的 例子 ， 展 示 多 个 GC 线程 如 
何 使 用 CPU。 但 一 般 来 说 ， 多 CPU 多 线程 的 目的 仍然 是 通过 不 阻塞 线程 来 提高 CPU 使 用 
率 ， 或 者 是 在 线程 完成 工作 等 待 更 多 任务 时 降低 CPU 使 用 率 。 


另外 在 多 线程 多 CPU 下， 需要 重点 考虑 以 下 CPU 空闲 的 情形 : 即便 有 事 可 做 ，CPU 仍 
然 空 栖 。 这 在 程序 没有 更 多 线程 可 用 的 时 候 可 能 会 出 现 。 典 型 的 情况 是 ， 应 用 以 固定 尺寸 
的 线程 池 运 行 各 种 任务 。 每 个 线程 同时 上 只 能 执行 一 个 任务 ， 当 线程 被 某 个 任务 阻塞 时 ( 例 
如 ， 等 待 数据 库 的 响应 )， 它 就 没 法 捡 出 新 任务 执行 了 。 所 以 此 时 的 情况 就 是 ， 有 任务 需 
要 执行 (有事 可 做 )， 却 没有 线程 执行 它们 ， 结 果 就 是 CPU 处 在 空闲 时 间 。 


在 这 个 例子 中 ， 应 该 增加 线程 池 的 大 小 。 然 而 ， 不 要 假设 所 有 的 空 帮 都 是 因为 CPU 可 用 ， 
从 而 增加 线程 池 以 完成 更 多 工作 。 程 序 得 不 到 CPU 周期 还 有 可 能 是 由 于 前 面 提 到 的 两 
个 原因 一 一 锁 或 者 外 部 资源 的 瓶 贷 。 很 重要 的 一 点 就 是 ， 在 决定 采取 行动 前 ， 需 要 搞 清楚 
为 什么 程序 得 不 到 CPU。( 这 个 主题 的 更 多 详细 内 容 请 参见 第 9 章 。) 
检查 CPU 使 用 率 是 弄 清楚 应 用 性 能 的 第 一 步 ， 但 它 的 用 途 不 仅 如 此 : 它 可 以 查看 代码 的 
CPU 使 用 是 否 与 预期 的 一 样 ， 或 者 可 以 指出 一 些 同步 或 资源 问题 。 








































































































































































































3.1.2 CPU 运行 队列 


Windows 和 Unix 系统 都 可 以 监控 可 运行 (意味 着 没有 被 IO 阻塞 、 休 眠 等 ) 的 线程 
数 。Unix 系统 称 之 为 运行 队列 (run queue), 一 些 工具 的 输出 中 也 有 运行 队列 长 度 。 上 节 
vmstat 的 输出 中 就 包括 : 每 行 的 首 个 数字 就 是 运行 队列 长 度 。Windows 将 这 个 数字 称 为 处 
理 器 队列 (processor quque)，typeperf (还 有 其 他 方法 ) 可 以 报告 该 信息 : 

C:> typeperf -si 1 "\System\Processor Queue Length" 


"05/11/2013 19:09:42.678","0.000000" 
"05/11/2013 19:09:43.678","0.000000" 


前 面 vmstat 的 输出 与 此 处 有 很 重要 的 差别 : Unix 系统 的 运行 队列 长 度 (vmstat 输出 示例 
中 的 1 或 2) 是 所 有 正在 运行 或 待 运行 ( 即 一 旦 有 可 用 CPU 就 可 以 运行 ) 的 线程 数 。 示 例 
中 至 少 有 一 个 线程 试图 运行 : 即 以 单线 程 执行 应 用 。 因 此 ， 运 行 队列 长 度 至 少 是 1。 记 住 ， 
运行 队列 反映 的 是 机 器 上 所 有 东西 的 运行 情况 ， 所 以 示例 输出 中 有 时 会 看 到 运行 队列 长 度 
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为 2， 因 为 此 时 有 其 他 线程 (来 自 其 他 完全 隔离 的 进程 ) 试图 运行 。 

而 在 Windows 中 ， 处 理 器 队列 长 度 就 不 包括 正在 运行 的 线程 。 因 此 ， 上 述 typeperf 示例 
输出 中 的 处 理 器 队列 长 度 就 是 0， 即 便 机 器 上 同样 有 一 个 单线 程 应 用 的 线程 一 直 在 执行 。 
如 果 试 图 运行 的 线程 数 超过 了 可 用 的 CPU， 性 能 就 会 下 降 。 一 般 来 说 ，Windows 的 处 理 器 
队列 长 度 最 好 为 0， 小 于 或 等 于 Unix 系统 CPU 的 数目 。 不 过 ， 这 不 是 硬性 的 规定 。 有 些 
系统 或 其 他 进程 会 周期 性 出 现 ， 在 这 瞬间 数字 会 有 提高 ， 这 对 性 能 不 会 有 实质 性 的 影响 。 
但 是 ， 如 果 在 相当 长 时 间 内 运行 队列 很 长 ,说 明 系 统 已 经 过 载 ， 这 时 你 应 该 检查 系统 ， 减 
少 机 器 正在 处 理 的 工作 量 (将 工作 转移 到 其 他 机 器 或 者 优化 代码 )。 


快速 小 结 

1. 检查 应 用 性 能 时 ， 首 先 应 该 审查 CPU 时 间 。 

2， 优 化 代码 的 目的 是 提升 而 不 是 降低 〈 更 短 时 间 段 内 的 ) CPU 使 用 率 。 
3. 在 试图 深入 优化 应 用 前 ， 应 该 先 弄 清楚 为 何 CPU 使 用 率 低 。 


3.1.3 ”磁盘 使 用 率 


监控 磁盘 使 用 率 有 两 个 目的 。 第 一 个 目的 与 应 用 本 身 有 关 : 如 果 应 用 正在 做 大 量 的 磁盘 
IO 操作 ， 那 IO 就 很 容易 成 为 瓶颈 。 

想 了 解 何 时 磁盘 VO 是 瓶颈 非常 困难 ， 因 为 这 取决 于 应 用 的 行为 。 如 果 应 用 往 磁 盘 写 数据 
时 (例子 参见 第 12 章 ) 没有 有 效 的 缓冲 ， 磁 盘 IO 的 统计 数据 就 会 非常 低 。 但 是 ， 如 果 应 
用 执行 的 IO 超过 了 磁盘 的 承载 ， 人 磁盘 IO 的 统计 数据 就 会 非常 高 。 请 注意 ， 这 两 种 情形 
的 性 能 都 需要 提升 。 

有 些 系 统 的 基本 IO 监控 要 好 于 其 他 系统 。 这 是 Linux 系统 iostat 的 部 分 输出 : 


% iostat -xm 5 
avg-Cpu: %user  %nice %system %iowait %steal  %idle 
23.45 0.00 37789 0.10 0.00 38.56 






































































































































Device: rrqm/s wrqm/s r/s w/s rMB/s 
sda 0.00 11.60 0.60 24.20 0.02 


wMB/s avgrq-sz avgqu-sz await r_await w _await svctm %util 
0.14 13:35 0.15 6.06 5:33 6.08 0.42 1.04 


应 用 正在 往 磁 盘 sda 写 数据 。 千 一 看 ， 磁 盘 统 计数 据 还 不 错 。w_await 一 一 每 次 IO 写 的 时 
间 一 一 相当 低 (6.08 毫秒 ) ， 磁 盘 使 用 率 只 有 1.04%。( 可 接受 的 值 取决 于 物理 磁盘 ， 在 低 
于 15 毫秒 时 ， 我 的 台式 机 系统 5200 RPM 的 磁盘 可 以 工作 得 很 好 。) 但 这 里 有 条 线索 可 以 
看 出 点 问题 : 系统 在 内 核 花 费 了 37.89% 的 时 间 。 一 种 可 能 是 系统 正在 进行 其 他 IO (在 其 
他 程序 中 )。 如 果 这 个 系统 时 间 都 来 自 被 测 的 应 用 ， 说 明 某 些 低 效率 的 事 正 在 发 生 。 


另 一 条 线索 是 ， 系 统 每 秒 写 为 24.2: 当 每 秒 写 入 只 有 0.14 MB 时 ， 这 算 很 大 的 数字 。 这 说 
明 VO 已 经 是 瓶 贷 ， 接 下 来 应 该 检查 应 用 是 如 何 写 的 。 


如 果 磁 盘 速 度 赶不上 IO 请 求 ， 问 题 的 另外 一 面 就 出 现 了 : 
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% iostat -xm 5 
avg-Cpu: %user  %nice %system %iowait %steal  %idle 
35.05 0.00 7.85 47.89 0.00 9.20 


Device: rrqm/s wrqm/s r/s w/s rMB/s 
sda 0.00 0.20 1.00 163.40 0.00 


wMB/s avgrq-sz avgqu-sz await r_await w await svctm %util 
81.09 1010.19 142.74 866.47 97.60 871.17 6.08 100.00 


Linux 好 处 在 于 可 以 立即 告诉 我 们 磁盘 的 使 用 率 为 100%。 它 也 能 告诉 我 们 进程 的 47.89% 
的 事件 在 iowait (表示 正在 等 待 磁盘 )。 


即便 其 他 平台 只 能 提供 原始 数据 ， 也 可 以 告诉 我 们 哪里 出 错 了 : 完成 WO (w_await) 用 时 
871 毫秒 ， 队 列 很 长 ， 磁 盘 每 秒 写 人 81 MB 数据 。 所 有 这 些 都 说 明 磁盘 IO 有 问题 ， 应 用 
(或 者 可 能 是 系统 的 其 他 部 分 ) 的 IO 必须 要 降低 。 


监控 磁盘 使 用 率 的 第 二 个 理由 是 一 一 即便 预计 应 用 不 会 有 很 高 的 TO 一 一 有 助 于 监控 系统 
是 否 在 进行 内 存 交 换 。 计 算 机 的 物理 内 存量 是 固定 的 ， 但 它们 可 以 用 大 得 多 的 虚拟 内 存 来 
运行 一 系列 应 用 。 应 用 会 保留 更 多 超过 它们 实际 所 需 的 内 存量 ， 并 且 它 们 通常 也 只 使 用 分 
配给 它们 的 内 存 的 一 部 分 。 这 两 种 情况 下 ， 操 作 系统 可 以 将 不 用 的 内 存 保留 在 磁盘 上 ， 在 
需要 时 换 页 到 物理 内 存 。 

大 多 数 情况 下 ， 这 种 类 型 的 内 存 管 理 可 以 工作 得 很 好 ， 特 别 是 交互 式 应 用 和 GUI 程序 
(这 一 点 是 很 有 好 处 的 ， 否 则 你 的 笔记 本 就 需要 比 实际 多 得 多 的 内 存 )。 这 种 管理 方式 对 服 
务 器 类 应 用 来 说 效果 稍 差 ， 因 为 这 些 应 用 需要 更 多 内 存 。 由 于 Java 堆 的 原因 ， 这 种 管理 
方式 对 于 任何 Java 程序 (包括 你 桌面 上 运行 的 基于 ) 来 说 都 比较 糟糕 。 更 多 详情 请 参见 
第 5 童 。 

正在 内 存 交 换 的 系统 一 一 从 主 内 存 移动 数据 到 磁盘 或 者 反 过 来 一 一 一 般 来 说 ， 性 能 比较 
差 。 还 有 其 他 系统 工具 可 以 报告 系统 交换 ， 例 如 vmstat 输出 中 有 两 列 (si 是 换 进 ，so 是 
换 出 ) 可 以 警告 我 们 系统 是 否 正在 交换 。 磁 盘活 动 说 明 内 存 交换 可 能 正在 发 生 。 


快速 小 结 

1， 对 于 所 有 应 用 来 说 ， 监 控 磁 盘 使 用 率 非常 重要 。 即 便 不 直接 写 磁 盘 的 应 

用 ， 系 统 交 换 仍然 会 影响 它们 的 性 能 。 

2， 写 人 磁盘 的 应 用 遇 到 瓶颈 ， 是 因为 写 和 人 数据 的 效率 不 高 (吞吐 量 太 低 )， 
或 者 是 因为 写 入 太 多 数据 ( 否 吐 量 太 高 )。 


3.1.4 网 络 使 用 率 

如 果 应 用 运行 时 需要 网 络 一 一 比如 Java EE 应 用 服务 器 一 一 你 也 必须 监控 网 络 流 量 。 网 络 
使 用 率 类 似 磁盘 流量 : 应 用 可 能 没有 充分 利用 网 络 所 以 带宽 很 低 ， 或 者 写 入 某 网 络 接 口 的 
总 数据 量 超过 了 它 所 能 处 理 的 量 。 
不 季 的 是 ， 由 于 标准 的 系统 工具 通常 只 能 显示 某 个 网 络 接口 发 送 和 接收 的 数据 报 数 和 字 六 
数 ， 所 以 它们 在 监控 网 络 流量 方面 差强人意 。 虽 然 这 些 信息 有 用 ， 但 无 法 告诉 我 们 网 络 是 
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没有 充分 利用 ， 还 是 过 度 使 用 。 


Unix 系统 监控 网 络 的 基本 工具 是 netstat (大 多 数 Linux 发 行 版 中 还 设 有 包括 netstat， 必 
须 单 独 获 得 )。Windows 上 则 可 以 在 脚本 中 使 用 typeperf， 监 控 网 络 使 用 率 一 一 不 过 GUI 
的 优势 可 以 显现 出 来 的 ， 标 准 的 Windows 资源 监视 器 显示 网 络 使 用 百分比 的 图 。 不 幸 的 
是 ，GUI 在 自动 性 能 测试 场景 中 几乎 没有 什么 帮助 。 
幸运 的 是 ， 有 许多 开源 和 商业 工具 可 以 监控 网 络 带 宽 。Unix 里 一 个 受 欢迎 的 命令 行 工 具 就 
是 nicstat， 它 可 以 显示 每 个 网 络 接口 的 流量 概要 ， 包 括 网 络 接口 的 使 用 度 : 

% nicstat 5 


Time Int rKB/s wKB/s rpk/s wPk/s rAvs wAvs %Util Sat 
17:05:17 e1000g1 225.7 176.2 905.0 922.5 255.4 195.6 Qi33 0.00 


示例 中 的 e1090g1 是 1000 MB 接口 ， 使 用 率 非常 低 (0.33%)。 这 个 工具 (以 及 其 他 类 似 的 
工具 ) 可 以 用 来 计算 接口 的 使 用 率 。 在 上 述 输出 中 ， 接 口 的 数据 写 入 速率 是 225.7 Kbps， 
读 取 速率 是 176.2 Kbps。 对 于 1000 MB 的 网 络 ， 相 除 以 后 可 以 得 到 使 用 率 0.33% ，nicstat 
也 能 自动 算出 接口 的 带宽 。 

typeperf 或 netstat 这 样 的 工具 可 以 报告 读 取 和 写 入 的 数据 ， 但 是 要 计算 网 络 使 用 率 ， 你 
必须 自己 用 脚本 计算 接口 的 带宽 。 虽 然 一 般 工 具 报 告 的 单位 是 字 节 / 秒 (Bps)， 但 请 切记 ， 
带宽 的 单位 是 位 / 秒 (bps)。1000 兆 位 网 络 每 秒 处 理 125 兆 字 节 (MB )。 本 示例 中 ， 读 为 
0.22 MBps， 写 为 0.16 MBps， 相 加 然后 除 以 125 得 出 使 用 率 为 0.33%。 所 以 nicstat (或 
类 似 工具 ) 没有 什么 神奇 的 ， 只 是 更 便于 使 用 而 已 。 


网 络 无 法 支持 100% 的 使 用 率 。 对 本 地 以 太 局 域 网 来 说 ， 承 受 的 网 络 使 用 率 超过 40% 就 意 
味 着 接口 饱和 了 。 如 果 网 络 是 包 交换 或 使 用 不 同 的 传输 介质 ， 网 络 使 用 率 的 最 大 值 就 可 能 
会 不 同 ， 因 此 最 好 是 评估 网 络 架构 之 后 再 确定 合适 的 值 。 这 个 值 与 Java 无 关 ， 只 是 简单 利 
用 网 络 参 数 和 操作 系统 接口 。 


快速 小 结 

1， 对 基于 网 络 的 应 用 来 说 ， 务 必要 监控 网 络 以 确保 它 不 是 瓶颈 。 

2. 往 网 络 写 数据 的 应 用 遇 到 瓶颈 ， 可 能 是 因为 写 数据 的 效率 太 低 〈 吞 吐 量 
太 低 )， 也 可 能 是 因为 写 信 了 太 多 的 数据 (吞吐 量 太 高 )。 





























3.2 Java 监控 工具 
要 想 深入 了 解 JVM 自身 ， 需 要 使 用 Java 的 监控 工具 。JDK 自 带 以 下 所 列 工具 。 


。 jcmd 
它 用 来 打印 Java 进程 所 涉及 的 基本 类 、 线 程 和 VM 信息 。 它 适用 于 脚本 ， 可 以 像 这 
样 执 行 : 
% jcmd process_id command optional_arguments 


jcmd help 可 以 列 出 所 有 的 命令 。jcmd help <command> 可 以 给 出 特定 命令 的 语法 。 
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。 jconsole 
提供 JVM 活动 的 图 形 化 视图 ， 
。 jhat 
读 取 内 存 堆 
。 jmap 
提供 堆 转 储 和 
工具 中 使 用 。 


。 jinfo 




















转 储 ， 并 有 助 于 分 析 。 


























其 他 JVM 内 存 使 用 的 信息 





包括 线程 的 使 用 、 类 的 使 用 和 GC 活动 。 


是 事后 使 用 的 工具 。 





。 可 以 适用 于 脚本 ， 但 堆 转 储 必 须 在 事后 分 析 





查看 JVM 的 系统 属性 ， 可 以 动态 设置 一 些 系统 属性 。 可 适用 于 脚本 。 


。 jstack 

转 储 Java 进程 的 栈 信 息 。 
。 jstat 

提供 GC 和 类 装载 活动 的 信息 。 


。 jvisualvm 


可 适用 于 脚本 。 








可 适用 于 脚本 。 





监视 JVM 的 GUI 工具， 





这 些 工具 可 广泛 用 于 以 下 领域 : 


。 基本 的 VM 信息 
。 线程 信息 

。 类 信息 

。 实时 GC 分 析 

。 堆 转 储 的 事后 处 理 
。 JVM 的 性 能 分 析 


你 可 能 注意 到 














同时 ， 我 们 还 会 讨论 其 他 工具 (有 些 


信息 。 


可 用 来 剖析 运行 的 应 用 ， 
jvisualvn 也 可 以 实时 抓 取 程序 的 堆 转 储 )。 


了 ， 工 具 和 适用 领域 并 非 一 一 对 应 的 ， 
不 是 单个 研究 每 个 工具 ， 而 是 着 眼 于 Java 重要 的 可 观测 领域 ， 


分 析 JVM 堆 转 储 (事后 活动 ， 虽 然 


许多 工具 可 用 于 多 个 领域 。 所 以 我 们 
讨论 这 些 工 具 如 何 提 供 这 类 
商业 )， 虽 然 提 供 的 基本 功能 














是 开源 ， 有 些 是 


相同 ， 但 是 相 比 基 本 的 JDK 工具 具有 一 定 的 优势 。 


3.2.1 基本 的 VM 信息 


JVM ee 进程 的 基本 运行 信息 : 


JVM 的 系统 属性 ， 
运行 时 间 
此 命令 可 以 查看 JVM 运行 的 时 长 : 


% jcmd process_id VM.uptime 


它 运 行 多 久 了 ， 使 用 哪些 JVM 标志 ， 以 及 





命令 可 以 显示 System.getProperties() 的 各 个 条 目 。 
% jcmd process_id VM.system_properties 
或 者 
% jinfo -sysprops process_id 
这 包括 通过 命令 行 -0 标志 设置 的 所 有 属性 ， 应 用 动态 添加 的 所 有 属性 和 JVM 的 默认 
JVM 版 本 
用 以 下 方式 获取 JVM 版 本 : 


% jcmd process_id VM.version 











JVM 命 op 今 外 
pe 的 “VM 摘要 ”页 可 以 显示 程序 所 用 的 命令 行 ， 或 者 用 jcmd 显示 : 


% jcmd process_id VM.command_Line 





JVM 调 优 标志 
可 用 以 下 方式 获得 对 应 用 生效 的 JVM 调 优 标 志 : 


% jcmd process_id VM.flags [-alll] 
调 优 标志 
JVM 可 以 设置 许多 调 优 标志 ， 本 书 就 关注 了 其 中 很 多 标志 。 追 踪 这 些 标志 及 其 默认 值 有 点 
让 人 崩溃 。 上 面 最 后 两 个 jcmd 示例 对 于 获取 这 类 信息 很 有 用 。command_line 显示 直接 在 命 
令 行 指定 的 标志 。flags Si ， 以 及 JVM 直接 设置 的 标志 (因为 它们 的 
值 是 通过 自动 优化 决定 的 )。 该 命令 加 上 all 时， 可 以 列 出 JVM 内 部 所 有 的 标志 。 


有 几 百 个 JVM 调 优 标志 ， 大 多 数 都 很 令 人 费解 ， 而 且 我 们 建议 永远 都 不 要 对 其 作 更 改 

(参见 下 文 的 框 注 “ 信 息 太 多 ?”)。 诊断 性 能 问题 时 ， 找 出 哪些 标志 起 作用 是 很 常见 的 事 。 

To 运行 时 ， 可 以 用 jcmd 做 到 这 一 点 。 如 果 想 找 出 特定 JVM 的 平台 特定 的 默认 值 是 什 
么 ， 那 么 在 命令 行 上 添加 -XX:+Printflagsfinal 会 很 有 用 。 


想 知 道 特定 平台 所 设置 的 标志 是 什么 ， 可 以 执行 以 下 命令 : 


% java other_options -XX:+PrintFlagsFinal -version 


a 几 百 行 输出 ,包括 …… 
uintx InitialHeapSize := 4169431040 {product} 
intx InlineSmallCode = 2000 {pd product} 


你 应 该 在 命令 行 包括 所 有 标志 ， 因 为 有 些 标志 会 影响 其 他 标志 ， 特 别 是 GC 相关 的 标志 。 
这 个 命令 会 打印 JVM 标志 及 其 取 值 的 完整 列表 (结果 和 jcmd 结合 VM.flags -all 打印 的 
相同 )。 

这 些 命令 的 标志 数据 以 上 述 两 种 方式 之 一 显示 。 输 出 第 1 行 中 的 冒号 表示 标志 使 用 的 是 非 
默认 值 。 发 生 这 种 情况 ， 可 能 是 以 下 原因 导致 。 
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(1) 标 志 值 直接 在 命令 行 指定 。 

(2) 其 他 标志 间接 改变 了 该 标志 的 值 。 
(3)JVM 自动 优化 计算 出 来 的 默认 值 。 
第 2 行 (没有 冒号 ) 表示 ， 值 是 这 个 JVM 版 本 的 默认 值 。 某 些 标志 的 默认 值 在 不 同 平台 
上 可 能 会 不 相同 ， 输 出 的 最 右 列 会 指示 。product 表示 在 所 有 平台 上 的 默认 设置 都 是 一 致 
的 。pd product 表示 标志 的 默认 值 是 独立 于 平台 的 。 





















































信息 太 多 ? 
PrintFLagsFinal 会 打出 好 几 百 个 JVM 可 用 的 调 优 参数 (比如 JDK 7u40 有 668 个 可 能 
的 标志 ) 。 
绝 大 多 数 标志 的 存在 都 是 为 了 支持 工程 师 收集 更 多 与 应 用 运行 〈 以 及 错误 行为 ) 相 
关 的 信息 。 有 个 比较 吸引 人 的 标志 称 为 AllocatePrefetchLines (默认 值 为 3)， 它 
使 得 标志 值 可 以 改变 ， 从 而 使 预 读 指令 在 特定 处 理 器 上 可 以 工作 得 更 好 。 但 这 
种 随意 的 调 优 并 没有 必要 。 除 非 你 有 很 充分 的 理由 ， 否则 不 要 更 改 标 志 值 。 就 


以 及 更 改 这 个 数字 对 JVM 自身 的 代码 有 什么 影响 。 














最 后 一 列 可 能 的 值 还 有 manageable (运行 时 可 以 动态 更 改 标 志 的 值 ) 和 C2 diagnostic (为 
编译 器 工程 师 提 供 诊断 输出 ， 帮 助理 解 编译 器 正 以 什么 方式 运作 )。 


还 有 另 一 种 查看 运行 中 的 应 用 的 此 类 信息 的 工具 ， 叫 作 jinfo。jinfo 的 好 处 在 于 ， 它 允许 

程序 在 执行 时 更 改 某 个 标志 的 值 。 

以 下 是 如 何 获取 进程 中 所 有 标志 的 值 : 
% jinfo -flags process_id 

jinfo 带 有 -flags 时 可 以 提供 所 有 标志 的 信息 ， 否 则 只 打印 命令 行 所 指定 的 标志 。 这 两 种 

数据 都 不 像 -XX:+Printflagsfinal 那样 易 读 ， 但 jinfo 有 其 他 值得 注意 的 特性 。 

jinfo 可 以 检查 单个 标志 的 值 : 


% jinfo -flag PrintGCDetails process_id 
-XX:+PrintGCDetails 









































虽然 jinfo 本 身 不 会 显示 是 否 manageable， 但 manageable (如 Printflagsfinal 输出 中 所 
标识 的 ) 的 标志 可 以 通过 jinfo 开启 或 关闭 : 
% jinfo -flag -PrintGCDetails process_id # turns off PrintGCDetails 


% jinfo -flag PrintGCDetails process_id 
-XX: -PrintGCDetails 





需要 当心 的 是 ，jinfo 可 以 更 改 任意 标志 的 值 ， 但 并 不 意味 着 JVM 会 响应 更 改 。 比 如 说 ， 
大 多 数 影响 GC 算法 行为 的 标志 都 在 启动 时 使 用 ， 以 决定 垃圾 收集 器 的 行为 方式 。 之 后 通 
过 jinfo 更 改 标志 值 ， 并 不 会 导致 JVM 改变 它 的 行为 。 它 会 以 初始 时 的 算法 继续 执行 。 所 
以 这 个 技术 只 会 对 那些 在 Printflagsfinal 输出 中 标记 为 manageable 的 标志 有 效 。 
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快速 小 结 
1. jcmd 可 用 来 查找 运行 中 的 应 用 所 在 JVM 的 基本 信息 一 一 包括 所 有 调 优 标 
志 的 值 。 
2. 命令 行 上 添加 -XX:+Printflagsfinal 可 输出 标志 的 默认 值 。 这 在 查看 特 
定 平台 自动 优化 所 判定 的 默认 值 时 很 有 用 。 
3. jinfo 在 检查 〈 某 些 情况 下 可 以 更 改 ) 单个 标志 时 很 有 用 。 
































3.2.2 ”线程 信息 
jconsole 和 jvisualvnm 可 以 实时 显示 应 用 中 运行 的 线程 的 数量 。 
查看 运行 线程 的 栈 信 息 ， 对 于 判断 线程 是 否 被 阻塞 很 有 用 。 可 以 通过 jstack 获取 栈 信息 


% jstack process_id 


ee 显示 了 每 个 线程 的 栈 的 众多 输出 …… 
也 可 以 通过 jcmd 获取 栈 信息 : 


% jcmd process_id Thread.print 


Be 显示 了 每 个 线程 的 栈 的 众多 输出 …… 
监控 线程 栈 的 详情 请 参见 第 9 章 。 























3.2.3 ”类 信息 
jconsole 或 jstat 可 以 提供 应 用 已 使 用 类 的 个 数 。jstat 还 能 提供 类 编译 相关 的 信息 。 
应 用 使 用 类 的 更 多 细节 请 参见 第 12 章 ， 监 控 类 编译 的 细节 请 参见 第 4 章 。 


3.2.4 实时 GC 分 析 


几乎 所 有 的 监控 工具 都 能 报告 一 些 GC 活动 的 信息 。jconsole 可 以 用 实时 图 显示 堆 的 使 
用 情况 。jcmd 可 以 执行 GC 操作 。jmap 可 以 打印 堆 的 概况 、 永 和 久 代 信 息 或 者 创建 堆 转 储 。 
jstat 可 以 为 垃圾 收集 器 正在 执行 的 操作 生成 许多 视图 。 


想 了 解 这 些 程序 如 何 监 控 GC 活动 ， 请 参见 第 5 章 的 实例 。 


3.2.5 ”事后 堆 转 储 


jvisualvnm 的 GUI 界面 可 以 捕获 扒 转 储 ， 也 可 以 用 命令 行 jcmd 或 jmap 生成 。 堆 转 储 是 
堆 使 用 情况 的 快照 ， 可 以 用 不 同 的 工具 进行 分 析 ， 包 括 jvtsuatvn 和 jhat。 传 统 上 
三 方 处 理 堆 转 储 的 工具 都 领先 于 JDK， 所 以 第 7 章 使 用 第 三 方 工具 
为 例 ， 展 示 如 何在 事后 处 理 堆 转 储 。 


3.3 性 能 分 析 工 具 


性 能 分 析 器 是 性 能 分 析 师 工具 箱 中 最 重要 的 工具 。Java 有 许多 性 能 分 析 器 ， 各 有 优 缺 点 。 
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性 能 分 析 经 常 需 要 使 用 各 种 工具 一 一 特别 是 那些 采样 分 析 器 。 即 便 是 相同 的 应 用 ， 不 同 的 
分 析 器 也 能 发 现 其 他 分 析 器 所 发 现 不 了 的 问题 。 


几乎 所 有 的 Java 性 能 分 析 工 具 都 是 用 Java 写 的 ， 并 以 “关联 ”(attaching) 应 用 的 方式 进 
行 性 能 分 析 一 一 意思 是 性 能 分 析 器 开启 与 目标 应 用 之 间 的 socket (或 其 他 通信 通道 )。 随 后 
目标 应 用 和 性 能 分 析 工 具 交 换 应 用 的 行为 信息 。 


这 意味 着 ， 就 像 调 优 任何 其 他 Java 应 用 一 样 ， 你 必须 注意 性 能 分 析 工 具 自 身 性 能 的 调 优 。 
尤其 是 如 果 应 用 很 大 ， 需 要 传递 给 分 析 工 具 的 数据 非常 多 ， 那 么 分 析 工 具 就 必须 得 有 足够 
大 的 堆 内 存 来 处 理 这 些 数据 。 性 能 分 析 工 具 采 用 并 发 GC 算法 运行 ， 通 常 是 个 不 错 的 主意 。 
在 性 能 分 析 过 程 中 ， 不 合 时 宜 的 Full GC 停顿 会 导致 性 能 分 析 工 具 缓冲 区 中 的 数据 溢出 。 


3.3.1 采样 分 析 器 

性 能 分 析 有 两 种 模式 : 数据 采样 或 数据 探查 。 数 据 采 样 是 性 能 分 析 的 基本 模式 ， 带 来 的 开 
销 最 小 ， 这 点 很 重要 。 性 能 分 析 为 人 诉 病 的 一 点 就 是 ， 对 应 用 进行 的 测量 会 改变 它 的 性 
能 。( 然 而 ， 你 必须 进行 性 能 分 析 : 还 有 什么 方法 能 让 你 知道 程序 中 的 猫 是 否 存活 ? ) 限 
制 性 使 用 性 能 分 析 可 以 使 得 测试 结果 更 接近 现实 模型 ， 即 通常 情况 下 应 用 的 表现 行为 。 

不 幸 的 是 ， 采 样 分 析 器 可 能 会 遇 到 各 种 错误 。 计 时 器 定期 触发 采样 分 析 器 ， 然 后 采样 分 析 
器 检查 每 个 线程 并 判断 正在 执行 的 方法 。 
3-1 是 采样 中 最 常见 的 错误 。 线 程 交 替 执 行 methodA ( 见 图 中 的 阴影 块 ) 和 methodB ( 见 
图 中 的 白色 块 )。 如 果 计 时 器 只 在 线程 执行 methodB 时 触发 ， 采样 分 析 器 就 会 报告 成 ， 在 所 
有 这 段 时 间 内 线程 都 在 执行 methodB， 而 实际 上 更 多 时 间 在 执行 methodA。 


























































































































方法 A 方法 A 


方法 B 
时 间 











3-1: 交替 方法 执行 


第 见 的 采样 错误 还 不 止 这 一 个 。 减 少 这 类 错误 的 方法 是 ， 拉 长 分 析 的 时 间 段 ， 同 时 减少 采 
样 间 隔 。 但 是 减少 采样 间隔 和 尽量 减 小 性 能 分 析 影 响应 用 的 目的 相 违背 ， 这 里 需要 有 平 
衡 。 不 同 的 性 能 分 析 工 具 考 虑 的 平衡 点 也 不 同 ， 这 就 是 为 什么 不 同 的 性 能 分 析 工 具 所 报告 
的 数据 有 很 大 差别 的 原因 。 

3-2 是 GlassFish 应 用 服务 器 启动 一 个 域 时 所 测量 出 的 基本 采样 分 析 。 图 中 显示 ， 大 块 时 
间 (19%) 都 用 在 了 defineCLass1() 上 ， 接 着 是 getPackageSourcesInternal() 等 方法 。 程 
序 的 启动 性 能 是 受 JVM 定义 类 过 程 的 控制 的 ， 这 并 不 奇怪 。 为 了 加 快 代码 运行 速度 ， 必 
须 改进 类 加 载 的 性 能 。 
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Hot spot | Inherent time Y 
©@- /WV java.lang.ClassLoader. defineClassl EE 2,.232 ms (19 %) 
@- LN org.apache,felix,framework.resolver,Resolverimpl.getPackageSourc..， MW 5438 ms (4 %) 
信心 java.lang,class,getDeclaredConstructors0 Ey 348 ms (3 %) 
信心 java.lang,reflect,Method,getParameterTypes Wm 236 ms (2 %) 
信心 java.lang,Object,hashcode 238 ms (2 %) 
© 心 org,apache,felix,framework,resolver,ResolverlImpl,mergeUses 232 ms (2 %) 
信心 java.lang,Object,clone 212 ms (1 %) 
©- LN java,lang,.reflect, Constructor, getParameterTypes 国 179 ms (1 %) 











图 3-2: 基于 一 个 样 例 的 测试 


请 仔细 留意 上 面 的 最 后 一 句 话 : 必须 改善 类 加 载 的 性 能 ， 而 不 是 改善 defineClass1() 的 性 
能 。 改 善 性 能 的 通常 设想 是 ， 应 该 先 优化 性 能 分 析 结 果 中 排 在 最 上 面 的 方法 。 然 而 ， 这 种 
做 法 常常 受 限 。 这 个 案例 中 的 defineClass1() 是 JDK 的 一 部 分 ， 而 且 是 本 地 方法 (native 
method) ， 除 非 改 写 JVM， 否 则 不 可 能 改善 它 的 性 能 。 而 且 ， 即 便 能 改写 JVM 使 得 这 个 方 
法 少 花 60% 的 时 间 ， 但 换算 成 整体 性 能 的 改善 ， 也 不 过 10% 一 一 这 无 异 于 杯水车薪 。 


而 更 常见 的 情况 是 ， 排 在 性 能 分 析 结 果 顶 上 的 方法 只 占 了 整体 时 间 的 2% 或 3%。 即 便 将 
它 所 用 的 时 间 砍 掉 一 半 (通常 极为 困难 )， 也 只 会 使 应 用 的 性 能 提高 1%。 只 盯 着 性 能 分 析 
结果 中 最 上 头 的 方法 ， 通 常 并 不 会 让 性 能 提高 很 多 。 

相反 ， 你 应 该 在 最 顶 上 那些 方法 所 指引 的 区 域 中 搜寻 可 优化 的 地 方 。GlassFish 性 能 工程 师 
\ 会 试图 让 类 定义 更 快 ， 但 通常 他 们 会 找 出 如 何 加 速 类 加 载 一 一 装载 更 少 的 类 、 并 行 加 载 
类 等 。 
































快速 小 结 

1， 采 样 分 析 器 是 最 常用 的 分 析 器 。 

2 因为 采样 分 析 器 的 采样 频率 相对 较 低 ， 所 以 引入 的 测量 失真 也 较 小 。 
3， 不 同 的 采样 分 析 器 各 有 千秋 ， 针 对 不 同 应 用 各 有 所 长 。 


3.3.2 ”探查 分 析 器 
探查 分 析 器 相 比 于 采样 分 析 器 ， 侵 入 性 更 强 ， 但 它们 可 以 给 出 关于 程序 内 部 所 发 生 的 更 有 
价值 的 信息 。 图 3-3 探查 的 是 与 图 3-2 相同 的 GlassFish 域 ， 采 用 的 也 是 同一 个 性 能 分 析 工 
上 有 具 ， 但 这 次 使 用 的 是 探查 模式 。 









































Hot spot | Inherent time v Average Time Invocations 
信心 org.apache.felixframework,resolver.Resolverlmpl,getPackageSourceslnternal EE 1 1, 934 ms (1 3 %) 356 hs 33,489 
@ AN org.apache.felix.framework. util.ImmutableMap.get E11.651 ms (12 %) 2 hs 4,769,764 
信心 javalang.Object,equals 5.797 ms (6 %) Ohs 15,907,963 
信心 org,apache,felixframework.BundleWiringImpl$BundleclassLoader'findClass 4,314 ms (5 %) 1,022 hs 4.710 
信心 java.utilMap.get 4,535 ms (5 %) 0 hs 6,783,508 
© LN java, util,lterator.hasNext mi 4,123 ms (4 %) 0 hs 6,179,992 
@ A java.util.Map$Entry.getKey mW 4,013 ms (4 %) Ohs 11,126,431 
信心 java'utilterator,next 3.951 ms (4 %) 0 hs 5,687,480 
S/N org,apache,felix,framework, util,ImmutableList$Listltr,hasNext mW 3,430 ms (3 %) 0 hs 4,591,013 
@ LN org.apache.felix.framework.resolver.ResolverImpl.mergeUses WM 2,329 ms (2 %) 8 hs 265,690 
$F A java.lang. String,equals mm 1,988 ms (2 %) 0 hs 5,056,880 














图 3-3: 一 个 探查 分 析 器 
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我 们 立即 就 能 从 这 份 性 能 分 析 结 果 中 看 出 些 问题 。 首 先 ， 现 在 最 “ 热 ”的 方法 成 了 
getPackageSourcesInternaL()， 因 为 占用 时 间 达 到 了 13% (而 不 是 前 个 例子 中 的 4%)。 性 
能 分 析 结 果 中 还 有 其 他 几 个 占用 很 多 时 间 的 方法 ， 也 都 排 到 了 前 头 ， 而 defineCLass1() 已 
经 完全 消失 了 。 这 次 工具 还 报告 了 每 个 方法 被 调用 的 次 数 ， 并 且 基 于 这 个 次 数 计算 出 了 每 
次 调用 的 平均 时 间 。 

难道 这 个 性 能 分 析 结 果 比 采样 的 好 ? 这 取决 于 能 否 有 办 法 知道 在 给 定 的 情况 下 哪 种 分 析 
结果 更 精确 。 探 查分 析 结 果 中 的 调用 次 数 毫 无 疑问 是 精确 的 ， 而 其 他 信息 在 判断 哪 段 代 
码 实际 花费 了 更 多 时 间 ， 哪 些 有 更 多 的 优化 空间 时 通常 很 有 帮助 。 在 这 个 例子 中 ， 虽 然 
ImmutableMap.get() 消耗 了 129% 的 整体 时 间 ， 但 它 被 调用 了 约 470 万 次 。 减 少 这 个 方法 的 
总 调用 次 数 比 加 快 它 的 运行 速度 可 以 更 显著 地 提升 性 能 。 

不 过 话说 回来 ， 探 查分 析 器 会 在 类 加 载 时 更 改 类 的 字 节 码 ( 即 插入 统计 调用 次 数 的 代码 
等 )。 相 比 采样 分 析 器 ， 探 查分 析 器 更 可 能 会 将 性 能 偏差 引入 应 用 。 比 如 ，JVM 会 内 联 小 
方法 (参见 第 4 章 ) 使 得 执行 时 不 会 产生 方法 调用 。 编 译 器 的 这 种 判断 是 基于 代码 的 大 
小 ， 所 以 有 可 能 使 得 这 段 代 码 不 再 被 内 联 ， 这 取决 于 如 何 探查 代码 。 这 会 导致 探查 分 析 器 
高 估 某 些 方法 对 整体 性 能 的 影响 。 方 法 内 联 只 是 一 个 例子 ， 说 明 编 译 器 会 基于 代码 在 内 存 
中 的 布局 而 做 出 决策 。 一 般 来 讲 ， 加 入 (更 改 ) 的 探查 代码 越 多 ， 运 行 的 性 能 分 析 结 果 就 
越 有 可 能 发 生变 更 。 

为 何 ImmutableMap.get() 只 在 这 里 出 现 ， 而 没 在 前 面 的 采样 分 析 结 果 中 出 现 ， 还 有 一 个 很 
重要 的 技术 原因 。Java 的 采样 分 析 器 只 能 在 线程 位 于 安全 点 时 采集 线程 样本 一 一 基本 上 只 
有 在 JVM 分 配 内 存 的 时 候 。get() 方法 可 能 永远 都 不 会 进入 安全 点 ， 所 以 可 能 永远 都 不 会 
被 采样 。 

在 这 个 例子 中 ， 探 查分 析 器 和 采样 分 析 器 给 出 的 结果 都 指向 同样 的 代码 区 域 : 类 装载 和 类 
解析 。 实 际 上 ， 不 同 分 析 器 的 结果 可 能 指向 的 是 完全 不 同 的 代码 区 域 。 性 能 分 析 器 可 以 用 
来 很 好 地 估计 ， 但 也 仅仅 是 估计 而 已 : 某 时 某 刻 它们 也 会 犯错 。 













































































快速 小 结 
1， 探查 分 析 器 可 以 给 出 更 多 的 应 用 信息 ， 但 相对 采样 分 析 器 ， 它 对 应 用 的 
影响 更 大 。 


2. 探查 分 析 器 应 该 仅 在 小 代码 区 域 一 一 一 些 类 和 包 一 一 中 设置 使 用 ， 以 限 
制 对 应 用 性 能 的 影响 。 


3.3.3 阻塞 方法 和 线程 时 间 线 

3-4 是 用 另 一 种 探查 分 析 工 具 (NetBeans 性 能 分 析 器 ) 分 析 的 GlassFish 启动 。 可 
以 看 出 ， 此 时 的 执行 时 间 主 要 被 park() 和 parkNanos() 占用 了 (相对 于 占用 更 少 的 
read() 方法 )。 



































IHot Spots- Method Self time [%] Selftime lnvocations 用 
jjava,utiLconcurrent,locks.LockSupport,parkNanos (Object long) 57,3 470 
ljava utiLconcurrent,locks,LockSupport,park (Object) [Es 356 
java.net.SocketinputStream.read (byte[], int, int, int) | | 21 
|org.apache. Felix.framework.resolver.ResolverImpl.getPackageSourcesInternal (or.. 22,400 
ljava.lang. ClassLoader. defineClass (String, byte[], int, int, java.security.ProtectionDo. 2,447 
java.lang.Class.privateGetDeclaredConstructors (boolean) 10,657 
Jjava.utiL. HashMap.getEntry (Object) 1,656,447 
java.util.concurrent.LinkedTransferQueue.awaitMatch (java.UtiLconcurrent.Linked 18 
Jorg apache.Felix.framework.resolver.ResolverImpl.mergeUses (org.0sgi.framewor... 182,836 
|org.apache.Felix.Framework.utiLImrnutableMap.get (Object) 3,067,340 
|org.apache.Felix.Framework.utilImmutableList$Listltr,hasNext 0 2,899,072 
java.lang.ClassLoader.getCallerClassLoader () 18,506 
|org apache.,Felix.framework.BundleWiringImpl$BundleClassLoader. findClass (String) 2,980 
|org.apache.Felix.framework.utilLImmutableList.size 0 2,903,040 
| org.apache. Felix.framework.BundleWiringlmpl.findClassOrResourceByDelegation... a, 289 
java UtiLzip.Inflater,inflate (byte[], int, int) (0%) 9,988 
ljava.utiLHashMap.hash (Obiect) 409ms (0%) 259,411 











图 3-4: 一 个 带 有 阻塞 方法 的 分 析 器 


这 些 方法 (以 及 类 似 的 阻塞 方法 ) 并 不 消耗 CPU 时 间 ， 所 以 对 应 用 的 整体 CPU 使 用 率 没 
有 贡献 。 没 有 必要 优化 它们 的 执行 。 应 用 线程 花费 623 秒 不 是 在 执行 parkNanos() 方法 ， 
是 等 待 别 的 事情 发 生 〈 例 如， 等 待 其 他 线程 调用 notify() 方法 ) 。park() 和 read() 方法 
同样 如 此 。 
因为 这 个 原因 ， 大 多 数 分 析 器 不 会 报告 被 阻塞 的 方法 ， 相 应 的 线程 也 被 显示 为 空间 (这 个 
例子 ，NetBeans 被 设置 为 显 式 包括 这 些 方法 和 其 他 Java 级 别 的 方法 ) 。 在 这 个 例子 中 ， 这 
是 件 好 事 : 停止 运行 的 是 Java 线程 池 中 的 线程 ， 这 些 线程 用 来 执行 服务 器 所 收 到 的 servlet 
(和 其 他 ) 请 求 。 启 动 时 没有 请 求 发 生 ， 所 以 这 些 线程 被 阻塞 ， 等 待 任务 执行 。 这 是 正常 
状态 。 


在 其 他 情况 下 ， 你 总 是 希望 能 看 到 那些 阻塞 调用 所 花费 的 时 间 。 线 程 在 wait() 一 一 等 待 其 
他 线程 唤醒 一 一 中 的 用 时 决定 了 许多 应 用 的 整体 执行 时 间 。 大 多 数 基于 Java 的 性 能 分 析 器 
可 以 通过 设置 过 滤器 和 调整 其 他 选项 来 显示 或 隐藏 这 些 阻塞 方法 。 


男 一 方面 ， 审 视线 程 的 执行 模式 而 不 是 分 析 器 给 阻塞 方法 所 标记 的 用 时 ， 常 常 更 有 价值 。 
图 3-5 是 Oracle Solaris Studio 性 能 分 析 工具 中 所 显示 的 线程 。 
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图 3-5 : 一 个 线程 时 间 线 分 析 器 
每 个 横向 区 域 都 是 一 个 线程 (图 中 有 两 个 线程 :线程 1.3 和 线程 1.2)。 颜 色 (或 不 同 的 灰 
Oc eg ee 
程 1.2 先是 执行 了 大 量 代 码 ， 然 后 等 待 线程 1.3， 线 程 1.3 之 后 稍稍 等 待 线程 1.2 执行 其 他 
事情 ， 等 等 。 用 工具 进一步 深入 这 些 区 域 ， 可 以 让 我 们 了 解 线程 之 间 是 如 何 相互 影响 的 。 


还 可 以 注意 到 ， 有 些 空白 区 域 没 有 任何 线程 在 执行 。 这 张 图 只 显示 了 应 用 许多 线程 中 的 两 个 ， 
所 以 这 两 个 线程 可 能 一 起 在 等 待 其 他 线程 ， 或 者 想 成 正在 执行 阻塞 调用 read() (或 类 似 的 )。 
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快速 小 结 
1， 线 程 被 阻塞 可 能 是 性 能 问题 ， 也 可 能 不 是 ， 有 必要 进一步 调查 它们 为 何 


被 阻塞 。 
2. 通过 正 被 阻塞 的 方法 调用 ， 或 者 分 析 线 程 的 时 间 线 ， 可 以 辨认 出 被 阻塞 
的 线程 。 


3.3.4 本 地 分 析 器 


本 地 性 能 分 析 工 具 是 指 分 析 JVM 自身 性 能 的 工具 。 这 类 工具 可 以 看 到 JVM 内 部 的 工作 原 
理 ， 如 果 应 用 自身 含有 本 地 库 ， 这 类 工具 也 能 看 到 本 地 库 代 码 的 内 部 。 所 有 本 地 分 析 工 具 
都 可 以 用 来 分 析 JVM 的 C 代码 〈 以 及 任何 本 地 库 ) ， 而 有 些 本 地 工具 则 可 以 用 来 分 析 任何 
Java 和 C/C++ 应 用 。 

















3-6 有 点 眼熟 ， 是 Oracle Solaris Studio 分 析 器 分 析 GlassFish 启动 的 结果 。 它 是 本 地 分 析 
器 ， 可 以 接受 Java 和 C/C++ 代码 。( 虽 然 名 字 中 有 Solaris， 但 它 也 可 以 在 Linux 系统 上 运 
行 。 实 际 上 ， 这 些 图 片 都 是 Linux OS 上 截取 的 分 析 结 果 。 不 过 ， 如 果 在 Solaris 的 内 核 结 
构 上 运行 ， 这 个 工具 可 以 展示 更 多 的 应 用 信息 ,) 








后 User | 电 User | Name 
CPU CPU 
V (sec,) (sec,) 











25.165 25,105 <Total> 

20, 064 20,064 <JVW-Systenr 

0,550 0,670 java,lang,ClassLoader,defineClassl(java,lang,String, byte[], int, int, java,sec 
日 ,389 日 ,389 <no Java callstack recorded> 

0,220 0,220 java,util,]jar,Attributes,read(java,util, jar,Manifest$FastInputStream, byte[]) 
0,.126 0.170 java.util,zip,Inflater,inflateBytes(long, byte[], int, int) 

日 ,199 0,160 org,apache,feLix,framework,utiL,ImmutabLeMap,get(java,Lang,object) 














3-6: 一 个 本 地 分 析 器 


请 注意 ， 第 一 处 与 前 面 不 同 的 是 ， 记 录 下 的 应 用 总 CPU 时 间 为 25.1 秒 ， 其 中 20 秒 是 JVM- 
System 所 用 。 这 是 JVM 自身 代码 的 特性 : JVM 编译 器 线程 和 GC 线程 (加 上 其 他 一 些 
辅助 线程 ) 。 我 们 可 以 进一步 了 解 到 ， 实 际 上 ， 这 个 例子 的 所 有 时 间 都 花费 在 了 编译 器 上 
(启动 过 程 确实 如 此 ， 期 间 有 许多 代码 需要 编译 )。 这 个 例子 中 ，GC 线程 只 花 了 很 少量 的 
时 间 。 


除非 是 为 了 深入 研究 JVM 自身 ， 否 则 这 些 本 地 信息 就 足够 了 。 如 果 我 们 愿意 ， 可 以 进 一 
步 检查 实际 的 JVM 功能 并 优化 它们 。 不 过 ， 这 个 工具 所 透露 出 来 的 关键 信息 是 一 一 基于 
Java 的 性 能 分 析 工 具 所 不 能 提供 的 一 一 应 用 花 在 GC 上 的 时 间 。 在 基于 Java 的 性 能 分 析 工 
具 中 ，GC 线程 的 影响 几乎 看 不 到 。( 除 非 测 试 所 运行 的 机 器 是 CPU 受 限 ， 否 则 编译 器 线 
程 占用 大 量 时 间 并 无 大 碍 : 虽然 编译 线程 会 消耗 大 量 的 CPU 时 间 ， 但 只 要 机 器 上 有 更 多 
可 用 的 CPU， 应 用 自身 就 不 受 影响 ， 因 为 编译 是 在 后 台 发 生 。) 


一 旦 检测 出 本 地 代码 的 影响 ， 就 可 以 过 滤 出 来 ， 以 便 重点 考虑 实际 的 启动 过 程 (图 3-7)。 
























































皇 user | 晶 User | Name 
CpU CPU 
V (sec,) (sec,) 
5,641 5,941 <Total> 
日 ,559 98,679 java,lang.ClassLoader.defineClassl(java.lang,.String, byte[], int, int, java.sec 
8,3980 0,380 <no Java callstack recorded> 
0,220 0,220 java,utit,jar,Attributes,read(java,utit,jar,Manifest$FastInputStream，byte[]) 


8.120 0,170 java,.util.zip.Inflater,.inflateBytes(long, byte[], int, int) 
日 ,199 9,199 org,apache,feLix,framework ,utitL,ImmutabLeMap,get(java,Lang,object) 








图 3-7: 一 个 过 滤 的 本 地 分 析 器 














采样 分 析 器 再 次 把 defineclass1() 指 为 了 最 热 的 方法 ， 虽 然 这 个 方法 及 其 子 调用 的 实际 
用 时 一 一 5.041 秒 中 的 0.67 秒 一 一 占 了 约 11% (不 像 前 面 采样 分 析 器 报告 的 那么 显著 )。 
分 析 结 果 还 指出 了 其 他 一 些 需 要 调查 的 信息 : 读 取 和 解压 JAR 文件 。 由 于 和 类 装载 有 
关 ， 这 说 明 我 们 追踪 的 方向 是 正确 一 一 但 在 这 个 例子 中 ， 重 要 的 是 看 到 了 实际 读 取 (通过 
inflateBytes() 方法 ) JAR 文件 VO 只 占 了 极 少 的 百分点 。 甚 他 工具 则 不 会 告诉 我 们 这 些 
信息 一 一 部 分 是 因为 Java ZIP 库 中 的 本 地 代码 被 当 作 阻 塞 调用 而 被 过 滤 掉 了 。 

无 论 你 用 上 述 哪 种 性 能 分 析 工 具 ， 或 更 好 的 工具 ， 至 关 重 要 的 一 点 就 是 熟悉 它们 的 特性 。 
性 能 分 析 器 是 查找 性 能 瓶颈 最 重要 的 工具 ， 但 你 必须 学 会 如 何 使 用 它们 ， 然 后 找到 需要 优 
化 的 代码 区 域 ， 而 不 是 仅仅 关注 最 上 头 的 方法 。 


快速 小 结 

1.， 本 地 性 能 分 析 器 可 以 提供 JVM 和 应 用 代码 内 部 的 信息 。 

2， 如 果 本 地 性 能 分 析 器 显示 GC 占用 了 主要 的 CPU 使 用 时 间 ， 优 化 垃圾 收 
集 器 就 是 正确 的 做 法 。 然 而 ， 如 果 显 示 编 译 线程 占用 了 明显 的 时 间 ， 则 
说 明 通 常 对 应 用 性 能 没什么 影响 。 


3.4 _ Java 任务 控制 


商业 版 Java 7 (从 7u40 开始 ) 和 Java 8 包含 了 称 为 Java Mission Control (以 下 称 JMC) 的 
监控 新 特性 。JDK 6 JRockit JVM (JMC 的 技术 源 自 于 此 ) 的 用 户 对 这 个 特性 应 该 很 熟悉 ， 
Oracle 将 它 作 为 Java 7 的 一 部 分 合并 了 进来 。JMC 不 是 开源 版 Java 的 一 部 分 ， 并 且 只 
通过 商业 许可 才 可 用 (也 就 是 说 ， 和 其 他 公司 的 有 竞争 力 的 监控 工具 的 许可 程序 相 类 似 )。 


JMC 的 程序 (jmc) 开启 一 个 窗口 以 显示 当前 机 器 上 的 JVM 进程 ， 你 可 以 选择 一 个 或 多 个 
进行 监控 。 图 3-8 是 JMC 监控 GlassFish 应 用 服务 器 的 一 个 实例 。 
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3-8: Java 任务 控制 器 监控 


图 中 显示 了 JMC 正在 监控 的 基本 信息 : CPU 使 用 率 和 堆 使 用 量 。 但 请 注意 ，CPU 图 包括 了 
当前 机 器 上 所 有 的 CPU (基本 上 是 100%， 即 使 这 里 被 监控 的 应 用 只 用 了 70%)。 这 是 监控 
的 关键 特性 : JMC 可 以 监控 整个 系统 ， 而 不 仅 是 所 选择 的 JVYM。 顶 部 的 “面板 ”可 以 配置 ， 
以 显示 JVM 的 信息 (所 有 的 统计 信息 ， 包 括 GC、 类 加 载 、 线 程 使 用 情况 、 堆 使 用 量 等 ) 以 
及 操作 系统 相关 的 信息 (机 器 总 的 CPU 和 内 存 使 用 量 、 页 面 交 换 、 平 均 负 载 等 )。 


像 其 他 监控 工具 一 样 ，JMC 可 以 向 任何 被 监控 应 用 的 MBean 发 起 Java Management Extensions 
(JMX) 调用 。 


3.4.1 _ Java 飞行 记录 器 


JMC 的 关键 特性 是 Java 飞行 记录 器 (Java Flight Recorder，JFR)。 正 像 它 名 字 所 暗示 的 ， 
JFR 数据 是 JVM 的 历史 事件 ， 这 些 可 以 用 来 诊断 JVM 的 历史 性 能 和 操作 。 


JFR 的 基本 操作 是 开局 一 组 事件 〈 例 如 ， 线 程 等 待 某 个 锁 而 被 阻塞 的 事件 )。 每 当选 择 的 事 
件 发 生 时 ， 就 会 保存 相应 的 数据 〈 保 存在 内 存 或 文件 中 )。 数 据 流 保存 在 循环 缓冲 中 ， 所 
以 只 有 最 近 的 事件 。JMC 可 以 显示 这 些 事件 一 一 实时 从 JVM 获取 或 者 从 文件 读 取 一 一 你 
可 以 对 这 些 事件 进行 分 析 ， 诊 断 性 能 问题 。 







































































所 有 这 些 一 一 事件 的 类 别 、 循 环 缓冲 的 大 小 、 数 据 保 存在 哪里 等 一 一 都 可 以 通过 JVM 的 
不 同 参数 、JMC 的 GUI 以 及 程序 运行 时 的 jcmd 命令 来 控制 。JFR 的 默认 设置 只 有 很 低 的 
开销 : 程序 性 能 的 1% 以 下 。 如 果 开 启 的 事件 变 多 ， 或 者 事件 触发 的 国 值 更 改 等 ， 开 销 也 
会 随 之 变化 。 本 节 的 后 面 将 详细 讨论 这 些 配置 ， 我 们 先 了 解 一 下 这 些 事件 显示 出 来 是 什么 
样 的 ， 从 而 更 容易 理解 JFR 是 如 何 工作 的 。 

1. JFR 概 览 

示例 中 的 JFR 记录 了 GlassFish 应 用 服务 器 6 分 钟 的 数据 。 服 务 器 运行 的 是 第 2 章 所 讨论 
的 股票 servlet。JMC 加 载 这 些 记 录 后 ， 首 先 看 到 的 是 基本 的 监控 概要 (图 3-9)。 








民 Overview @ 
ES mEvents m Operative Set INterval: 1 min 6 s (selected) -] Synchronize Selection 
General 
钥 
Memol :10: palralr oar a :11， 
ry 5/26/134:10:21 PM 图 四 加 园 国 3261341427PM 
code Heap Usage Total CPU Usage GC Pause Time 
) # h 
篇 ys 4 ~ FE 
Threads A a0 4 1 
和 
有 EE-= 2 hb AN 
WO - ~" 3 ol ol. | . a - 
而 Avg: 786.58 MB Max': 1.43 GB Avg: 98.23% Max: 100.00% Avg: 22ms 276Hs Max: 45ms164hs 
System 一 一 一 一 
CPU Usage|Heap Usage 
二 CPU Usage 
Events 


图 国 Machine 图 国 JVM+Application 





4:10:28 PM 4:10:35 PM 4:10:42 PM 4:10:49 PM 4:10:56 PM 4:11:03 PM 4:11:10PM 4:11:17 PM 4:11:24 PM 


General 


JVM Start Time N/A 
JVMVersion N/A 








居 Overview | 吏 JVM iInformation 他 System Properties| 也 Recording 














图 3-9: JFR 常规 信息 











上 图 所 展示 的 与 JMC 基本 监控 时 的 显示 非常 类 似 。 仪 表盘 显示 的 是 CPU 使 用 率 和 堆 使 用 
量 ， 仪 表盘 上 方 是 事件 的 时 间 线 (用 一 系列 的 垂直 条 表示 )。 时 间 线 可 以 放大 以 显示 重点 
区 域 。 本 示例 记录 的 数据 区 间 为 6 分 钟 ， 放 大 之 后 ， 显 示 的 是 到 记录 结束 之 前 1:06 分 钟 内 
的 数据 。 

图 中 的 CPU 占用 率 ? 大 体 可 以 看 出 正在 做 什么 。GlashFish 的 JVM 在 图 的 底部 (平均 大 约 
70% 的 占用 率 )， 而 机 器 的 CPU 为 100%。 面 板 底 部 还 有 一 些 选项 卡 可 以 一 探究 竟 ， 系统 




















注 2: 中 文 JMC 中 的 显示 。 一 一 译 者 注 
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属性 ，JFR 记录 的 实际 数据 。 
可 以 了 解 应 用 内 部 的 行为 。 
2. JFR 内 存 视 图 
这 里 汇集 的 信息 范 


左边 面板 上 的 





图 标 更 为 重要 : 通 


乞 围 很 广 。 图 3-10 只 显示 了 内 存 视图 中 的 一 个 面板 。 


过 这 些 图 标 对 应 的 视 








图 EVents @ Operative Set 


5/26/13 4:10:21 PM 


Interval: 1 min 6 s (selected) 


图 Synchronize Selectio 


am 


| 名 | Epa [S| 5/26/134:11:27 PM 


Heap 


175 GB 十 - 


入 
5 
E 
三 768.00 MB | 

512.00 MB | 上 
256.00 MB 


0 bytes 


| 有 


Heap |Reference Objects |Failed Promotions | Failed Evacuations 


图 国 CommittedHeap 回国 UsedHeap 






| 国 CCPause Time 


Pause Time 








CC ‘Longest B 


Ss 一 | 


191jams1ahs| 
192. ms 876 Hs 
193| ms784us| 
194} ms916bs | 
195. |9ms16hs | 
196|ms302hs| 
197Ims270bs| 


4:10:28 PM 


Garbage Collections 


Des. 
parallelSc, No 
parallelSc No 
Paralelsc| No 
| Parallelsc| No 
| Parallelsc, No 
Parallelscl No 
| parauetsc| No 
Parallelsc| No 





4:10:35 PM 


4:10:42PM 4:10:49 PM 4:10:56 PM 


4:11:03 PM 


4:11:10PM 4:11:17 PM 4:11:24 PM 


General |GC Phases | ReFerence Objects| Heap|Perm Gen 








Conc Moc GC Phases 


Event Type Name 
CCPhasePause | CCPause 


GCPhase Pause Lel Scavenge 
GC Phase Pause Lel References 
GCPhase Pause Lel StringTable 


GCPhase Pause Lel Prune Scavenge Ro 


GCPhase Pause Le SoftReference 


Duration Start Time 
15ms 939 Us 5/1 3 4:10:21.820 PM 


10ms 148 Hs 5/13 4:10:21.820 PM 

18 Hsi5/13 4:10:21.830 PM 

Sms 223 Hs 8/13 4:10:21.830 PM 

0s 5/13 4:10:21.835 pM 

| 3bs 5/13 4:10:21.830 PM 


GCPhase Pause Le WeakReference 


0s 5/13 4:10:21.830 PM 


1 Us 6143 4: 10:21.830 PM 


198| bad, bs CCPhase Pausel el FinalReference | 
Es ;Allocations| | 给 Object Statistics| 


名 Oveview 军 Carbage Collections | 芋 GCTimes| 葬 GC Configuration 








图 3-10: JFR 内 存 面板 


图 中 显示 ， 内 存 的 使 用 量 随 着 新 生 代 的 回收 而 发 生 很 有 规律 的 波动 (而 更 重要 的 是 ， 该 应 
用 的 内 存 堆 整 体 没 有 什么 增长 : 没有 对 象 被 提升 到 老年 代 )。 左 下 角 面 板 显 示 JFR 记录 期 
间 发 生 的 所 有 垃圾 收集 〈 每 行 表示 一 次 收集 )， 包 括 持续 的 时 间 和 收集 的 类 型 (这 个 例子 
始终 是 Parallelscavenge)。 当 选中 茶 一 行事 件 时 ， 右 下 角 面 板 会 进一步 分 拆 显 示 事件 的 详 
细 信 息 ， 包 括 这 次 垃圾 收集 的 所 有 特定 阶段 和 花 了 多 长 时 间 。 


正如 大 家 从 这 页 的 不 同 选 项 卡 上 所 看 到 的 ， 还 有 许多 其 他 有 价值 的 信息 : 有 多 少 引用 对 象 
和 多 长 时 间 被 清理 ， 并 发 收集 过 程 中 是 否 有 对 象 提升 或 玻 散 失败 (evacuation failure) ，GC 
算法 的 配置 参数 (包括 代 的 大 小 和 Survivor 空间 的 配置 )， 其 至 已 分 配 的 特定 种 类 对 象 的 
信息 。 当 你 读 到 第 5 章 和 第 6 章 时 ， 和 希望 你 还 能 牢记 这 里 所 讨论 的 这 个 工具 所 能 诊断 的 
问题 。 如 果 你 需要 和 弄 明 白 为 何 CMS 出 现 并 发 失败 而 执行 全 部 GC (因为 晋升 失败 ? ), 或 
者 JVM 如 何 调 整 晋升 闷 值 (tenuring threshold) ， 或 者 关于 GC 及 其 行为 的 几乎 所 有 数据 ， 























JFR 都 将 回答 。 
3. JFR 代 码 视图 




















JFR 的 “代码 ”视图 显示 所 记录 的 基本 性 能 分 析 信息 (图 3-11)。 

Hot Packages 

The packageswherethe application spent most time executing. 
Package Sample Count Percentage 
园 java.math 2,265 40.89% 
加 java.util 821 14.82% 
园 :un.nio.cs 501 9.04% 
加 org.apachejasperruntime 367 6.63% 
围 java.lang 309 5.58% 
国 sun.utilLcalendar 298 5.38% 
园 net.sdo.stockimpl 277 5.00% 
贺 org.glassfish.grizzly.memory 204 3.68% 
园 -un awt 1nn 1-.R1% 

Hot Classes 

Filter Column | Glass 总 

Class Sample Count Percentage 

© java.math.Biglnteger 1,120 20.22% 

© java.math.MutableBiglnteger 700 12.64% 

© sun.nio.cs.UTF_8$Encoder 500 9.03% 

© java.math.BigDecimal 445 8.03% 

© org.apache.jasper.runtime.JspWriterimpl | 365 6.59% 

© java.utiLArrays | 281 5.07% 

© sun,utiLcalendarBaseCalendar | 249 4.50% 

© java.utiLTreeMap | 244 4.41% 

加 Overview|@O Hot Methods| 三 CalTree| 有 Throwables| 久 Compilations| 驴 CodeCache[@ClassLoading| 











图 3-11: JFR 代码 面板 














这 个 视图 的 第 一 个 选项 卡 显示 了 一 组 包 名 ， 这 是 一 个 许多 分 析 器 中 都 没有 的 重要 特性 。 不 
出 所 料 ， 股 票 应 用 的 41% 的 时 间 用 在 java.math 包 内 的 计算 上 。 视 图 底部 还 有 其 他 传统 分 





析 视 图 的 选项 卡 : 最 热 的 方法 和 被 分 析 代码 的 调用 树 。 











与 其 他 分 析 器 不 同 的 是 ，JFR 提供 了 查看 代码 内 部 的 其 他 模式 。 “异常 错误 ”(Throwable) 
选项 卡 提供 了 应 用 内 部 异常 处 理 的 视图 (第 12 章 将 讨论 为 什么 异常 处 理 过 多 会 导致 精 糕 
的 性 能 )。 还 有 些 选 项 卡 告诉 我 们 编译 改正 在 做 什么 ， 包 括 代 码 缓存 的 内 部 视 

















4 章 )。 
还 有 其 他 显示 














事件 提供 了 更 好 的 视图 。 
4. JFR 事 件 概览 




















图 (参见 第 








如 线程 、L/O 和 系统 事件 一 一 但 这 其 中 的 大 部 分 只 是 为 JFR 记录 的 真实 


JFR 生成 的 事件 流 会 作为 记录 保存 下 来 。 上 述 视 图 可 以 展示 这 些 事件 ， 但 查看 事件 最 重要 





的 方法 是 “事件 ”面板 自身 ， 参 见 图 3-12。 








注 3: 原文 是 “Java Mission Control”， 说 JFR 更 为 准确 。 一 一 译 者 注 
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图 JvMBrow | 党 Event Typ 
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» 口 名 Statistics 旭 
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国 File write 

国 JavaError 
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司 
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合 
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内 Overview 


a Events 9 Operative Set 
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Filter Column [Broducer 


Producer 


Intervat 1 min 6 s (selected) 


图 加 图 图 国 3/261341127PM 


mr 
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图 Synchronize Selection 


回 
Show Only Operative Set 


Total Count 














HotSpotJVM 
国 JavaRuntime 





1hsomin10s944ms| 10,612 
3min4s833ms| 1.536 


国 JavaThreadEnd 
国 Java Thread Park 
转 JavaThread Sleep 
Java Thread Start 
可 国 SocketRead 
画 国 Socket write 
v D&S JavaVirtual Machine 
SS Class Loading 
BS Code Cache 
BS Code Sweeper 


a 
System 


二 
Events 














Event Types 


Filter Column [Event Type Show Only Operative Set 


Event Type Total Count 
BS Compiler 国 JavaThreadPark | 1h10min33s945ms| 9.772 
SFlag Socket Write | 40s928ms | 1,306 
bp Occ | Java Monitor Wait 32min 20s97 ms| 638 
力 SocketRead 2min23s905ms| 230 
国 Java Monitor Blocked 5s838ms| 189 
国 JavaThread Sleep 7min11s63ms| Ep 





vvyvvvr 

















» OD Profiing 
» DB Runtime 
国 Initial System Property 
国 JvM information 
* DB Operating System 
| 














闪 Overview| 晤 Log] 导 Graph| 哆 Threads| s Stack Traces|llud Histogram 











图 3-12 : JFR 事件 面板 


窗口 左边 的 面板 可 以 过 滤 需 要 显示 的 事件 。 这 里 只 选择 应 用 级 别 的 事件 。 请 注意 ， 在 开始 
记录 时 ， 只 包括 特定 种 类 的 事件 : 在 这 个 时 候 ， 我 们 进行 事后 的 过 滤 (下 节 演 示 如 何在 记 
录 时 过 滤 所 包括 的 事件 )。 


本 示例 的 66 秒 间隔 中 ， 应 用 的 JVM 产生 了 10 612 个 事件 ，JDK 库 产生 了 1536 个 事件 ， 
靠近 窗口 底部 的 是 在 这 个 期 间 生 成 的 6 种 事件 类 型 。 我 已 经 讨论 过 这 个 示例 的 线程 停止 
(thread-park) 和 管 程 等 待 (monitor-wait) 事件 为 什么 这 么 高 。 可 以 忽略 这 些 事 件 (事实 
上 ,通常 它们 是 很 好 的 过 滤 条 件 )。 那 其 他 事件 呢 ? 


过 了 66 秒 后 ， 应 用 的 多 个 线程 写 socket 花费 了 40 秒 。 对 于 在 4 个 CPU 上 运行 的 应 用 服 
务 器 来 说 ， 这 并 不 是 一 个 不 合理 的 数字 (也 就 是 说 ，264 秒 ) ， 但 意味 着 可 以 通过 向 客户 端 
写 入 较 少 的 数据 来 改善 性 能 (使 用 第 10 章 列 出 的 技术 ) 。 


与 此 类 似 ， 多 个 线程 读 socket 用 了 143 秒 。 这 个 数字 听 起 来 比较 糟糕 ， 值 得 进一步 追踪 这 
些 事 件 ， 不 过 最 终 证 实 有 些 线程 使 用 了 阻塞 TO 读 取 预 计 周期 性 到 达 的 管理 请 求 。 这 些 请 
求 之 间 一 一 很 长 一 段 时 间 一 一 线程 被 read() 方法 阻塞 。 所 以 这 里 的 读 取 时 间 变 得 可 以 接 
受 : 如 果 使 用 性 能 分 析 器 ， 你 应 该 判断 大 量 的 线程 被 TO 阻 寨 是 预料 之 中 的 ， 还 是 说 明 在 
在 性 能 问题 
还 有 监视 器 阻塞 事件 。 正 如 第 9 章 所 讨论 的 ， 锁 竞争 分 为 两 种 级 别 : 首先 是 线程 自 旋 等 待 
锁 ， 然 后 线程 使 用 (进程 中 称 为 锁 膨胀 ;一 些 CPU 或 OS 特定 的 代码 等 待 锁 。 标 准 的 分 
析 器 可 以 提示 处 于 那 种 情形 ， 因 为 自 旋 时 间 包 括 在 该 方法 的 CPU 时 间 内 。 本 地 分 析 器 可 
给 出 锁 膨 胀 的 信息 ， 但 这 是 不 确定 的 (例如 ，Oracle Studio 分 析 器 在 Solaris 上 运行 的 很 









































好 ,但 Linux 上 缺少 必要 的 能 提供 与 Solaris 相同 信息 的 操作 系统 钩子 )。 但 JVM 可 以 直接 


向 JFR 提供 所 有 的 这 些 数据 。 


使 用 锁 可 见 性 的 例子 请 参见 第 9 章 。 不 过 通常 来 说 ， 理 所 当然 的 那些 JFR 事件 是 直接 来 自 

















于 JVM 的 事件 ， 它 们 给 应 用 增加 了 一 个 可 见 性 级 别 ， 这 是 其 他 工具 不 能 提供 的 。 在 Java 
7u40 中 ，JFR 可 以 监控 77 种 事件 类 型 。 根 据 发 布 的 版 本 ， 事 件 种 类 的 精确 数字 会 略微 有 














所 不 同 ， 这 里 是 一 些 最 有 用 的 。 





以 下 每 种 事件 类 型 的 说 明 都 包括 两 点 。 事 件 可 以 像 其 他 工具 如 jconsote 和 jcmd 那样 收集 
基本 信息 。 这 类 信息 在 第 一 点 中 描述 。 第 二 点 则 描述 的 是 事件 提供 者 ， 这 在 JFR 之 外 很 难 














获得 。 
Classloading 

。 哪个 类 装载 器 装载 的 类 ， 装 载 单个 类 需要 的 时 间 
Thread statistics 

。 创建 和 销毁 的 线程 数 ， 线 程 转 储 

。 被 锁 阻 塞 的 线程 (以 及 阻塞 住 它们 的 特定 锁 ) 
Throwables 

。 应 用 所 用 的 异常 错误 类 

。 有 多 少 异 常 和 错误 被 抛 出 了 ， 以 及 它们 生成 时 的 栈 追 踪 信 息 
TLAB allocation 

。 堆 分 配 的 数量 和 本 地 线程 分 配 缓冲 的 大 小 

。 堆 中 分 配 的 对 象 和 分 配 它们 的 栈 追 踪 信 息 
File and socket IO 

。 执行 IO 所 用 的 时 间 

。 每 次 读 / 写 调用 所 用 的 时 间 ， 读 或 写 很 长 时 间 的 特定 文件 或 socket 
Monitor blocked 

。 等 待 管 程 的 线 各 

。 在 特定 管 程 上 阻塞 的 线程 以 及 它们 被 阻塞 的 时 间 
Code cache 

。 代码 缓存 的 大 小 以 及 包含 多 少量 

。 从 代码 缓存 中 移 走 的 Java 方法 ， 代 码 缓存 配置 
Code compilation 

。 哪个 方法 已 被 编译 ，OSR 编译 和 编译 的 时 长 

。 除了 JFR 其 他 工具 也 包括 的 信息 ， 但 这 是 从 多 个 源头 获取 的 统一 信息 
Garbage collection 

。 GC 的 时 间 ， 包 括 单个 阶段 ， 代 的 大 小 

。 除了 JFR 其 他 工具 也 包括 的 信息 ， 但 这 是 从 多 个 工具 获取 的 统一 信息 
Profiling 

。 探查 和 采样 分 析 器 
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。 不 像 真 的 性 能 分 析 器 那样 有 很 多 信息 ， 但 JFR 分 析 器 提供 了 很 好 的 更 高 层次 的 概要 





3.4.2 ”开启 JFR 


在 Oracle JVM 的 商业 版 本 中 ，JFR 初始 时 为 关闭 。 为 了 开启 它 ， 可 以 在 应 用 的 启动 命令 
行 上 添加 标志 -XX:+UnlockCommercialFeatures -XX:+flightRecorder。 这 会 开启 JFR 特性 ， 
但 直到 记录 过 程 自身 开始 时 才 会 记录 信息 。 记 录 可 以 通过 GUI 或 者 命令 行 产 生 。 

1. 通过 JMC 开 启 JFR 

开启 记录 的 最 简单 方法 是 通过 JMC GUI (jmc)。 当 jmc 启动 时 ， 它 会 列 出 运行 在 当前 系 
统 中 的 所 有 JVM 进程 。JVM 进程 显示 在 树 状 的 节点 配置 中 。 双 击 *“ 飞 行 记录 器 ”(Flight 
Recorder) 标签 下 的 节点 会 弹出 像 图 3-13 这 样 的 飞行 记录 窗口 。 






































Start Flight Recording 隆 。 2 
Edit recording settings and then click Start to start the flight recording. 区 站 
Filename: Pe 
Name': MyRecording 


@ Time fixed recording 
Recording Time: [1 min 


) Continuous recording 


Maximum size: 


Maximum age: 


Event Settings 





| Continuous - on server :| Template Manager... 
Description: Low overhead configuration safe for continuous use in production environments, typically less than 1% 
overhead 


Tip: See the Recording Wizard Help for more information. 


Next> | Cancel Finish 











3-13: JFR 启动 飞行 记录 窗口 





飞行 记录 器 可 以 设 为 两 种 模式 之 一 : 固定 持续 时 间 (这 个 例子 是 1 
对 于 持续 记录 ， 会 有 一 个 循环 缓冲 ， 缓 冲 包 含 最 近 的 事件 ， 并 且 这 
间 和 大 小 内 。 





分 钟 )， 或 者 持续 进行 。 
些 事件 在 设置 的 持续 时 











注 4: 原文 为 “expand”， 参 考 实际 操作 应 为 双击 。 一 一 译 者 注 
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为 了 进行 主动 分 析 一 一 意味 着 你 将 开局 记录 ， 然 后 还 会 产生 一 些 工 作 量 ， 或 者 在 JVM 热 
身 之 后 一 一 应 该 用 固定 持续 时 间 的 方式 记录 ， 在 负载 测试 试验 中 开启 记录 。 这 些 记录 将 对 
测试 期 间 JVM 如 何 响应 给 出 很 好 的 指示 。 
持续 记录 最 适合 于 响应 性 分 析 (reactive analysis)。JVM 会 保留 最 近 的 事件 ， 然 后 转 储 为 响 
应 某 些 事件 的 记录 。 例 如 ，WebLogic 应 用 服务 器 可 以 在 遇 到 应 用 服务 器 异常 事件 时 〈 例 
如 处 理 超过 5 分 钟 的 请 求 )， 触 发 转 储 记录 。 你 可 以 针对 任何 事件 ， 设 立 自己 的 监控 工具 
转 储 这 些 记录 。 
2. 通过 命令 行 开 启 JFR 
开启 JFR 之 后 (选项 -XX:+flightRecorder)， 有 两 种 方法 控制 记录 应 该 在 何 时 以 及 如 何 发 
生 。JVM 用 -XX:+flightRecorderOptions=string 参数 方式 启动 时 ， 可 以 控制 这 些 记 录 参 
数 。 这 对 响应 性 记录 来 说 最 为 有 用 。 参 数 中 的 string 是 一 列 去 号 分 隔 的 名 字 - 值 对 ， 可 以 
用 以 下 选项 : 
Name=name 

用 以 标识 记录 的 名 字 。 
defaultrecording=<true/false> 

表示 初始 时 是 否 开启 记录 。 默 认为 false。 对 于 响应 性 分 析 ， 应 该 设 为 true。 
settings=path 

JFR 设置 文件 的 文件 名 (参见 下 市 )。 
delay=time 

记录 开始 前 延迟 的 时 间 量 (例如 ，30 秒 ，1 小 时 )。 
duration=time 

记录 持续 的 时 间 。 
filename=path 

记录 文件 名 。 
compress=<true/false> 

记录 是 否 开启 压缩 (gzip)。 默 认为 false。 
maxage=time 

循环 缓冲 中 保留 记录 数据 的 最 长 时 间 。 
maxsize=size 

记录 循环 缓冲 的 最 大 尺寸 (例如 ，1023 K，1 M)。 
在 某 些 情况 下 ， 像 上 述 那 样 设置 默认 记录 很 有 用 ， 但 为 了 更 大 的 灵活 性 ， 所 有 选项 可 在 程 
序 运行 时 (假设 -XX:+fLightRecorder 已 先 指定 ) ， 用 jcmd 来 控制 。 
要 开启 飞行 记录 : 


% jcmd process_id JFR.start [options_list] 
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options_list 是 一 组 用 逗号 分 隔 的 名 字 - 值 对 ， 控 制 记录 如 何 进行 。 可 能 的 选项 与 命令 和 
使 用 -XX:+flightRecorderoptions=string 时 的 标志 完全 一 样 。 


如 果 开 局 持续 记录 ， 可 以 在 任何 时 间 ， 通 过 以 下 命令 将 当前 循环 缓冲 里 的 数据 转 储 到 文 
件 中 : 


% jcmd process_id JFR.dump [options_list] 
选项 列表 包括 : 
Name=name 
在 这 个 名 字 下 的 记录 已 经 开始 。 
recording=n 


JFR 记录 的 编号 。 


























filename=path 
转 储 文件 的 位 置 。 
对 于 给 定 的 进程 ， 可 能 开启 了 多 个 JFR 记录 。 以 下 命令 可 查看 开启 的 记录 : 
% jcmd process_ id JFR.check [verbose] 
这 个 例子 中 ， 用 记录 启动 时 的 名 字 来 标识 它们 ， 也 可 以 任意 指定 记录 的 编号 (可 以 在 其 他 
JFR 命令 中 使 用 )。 最 后 是 进程 放弃 记录 的 命令 : 


% jcmd process_id JFR.stop [options_list] 


这 个 命令 接受 以 下 选项 : 














Name=name 
停止 记录 的 名 字 。 
recording=n 
停止 记录 的 编号 (可 由 JFR.check 获得 )。 
discard=boolean 
如 果 为 true， 则 丢弃 数据 而 不 是 写 到 前 面 所 提供 的 文件 中 (如果 有 的 话 )。 
filename=path 
数据 写 到 给 定 的 路 径 上 
回归 检查 运行 系统 的 时 候 ， 在 自动 化 性 能 测试 系统 中 运行 这 些 命令 并 生成 记录 ， 会 很 有 用 。 


3.4.3 选择 JFR 事 件 


JFR (当前 的 ) 支持 大 约 77 种 事件 。 大 多 数 是 周期 性 事件 : 它们 的 周期 以 毫秒 记 (例如 ， 
基于 采样 的 性 能 分 析 事 件 )。 其 他 事件 仅 当 事件 的 持续 时 间 超 出 病 值 时 才 会 触发 例如 ， 
读 文 件 事件 仅 在 read() 超过 指定 时 间 时 才 会 触发 )。 
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其 他 JFR 事件 


JFR 是 可 扩展 的 : 应 用 可 以 定义 自己 的 事件 。 因 此 ,依据 所 考虑 的 应 用 ,你 的 JFR 视 
线 可 以 显示 更 多 类 型 的 事件 。 例 如 ，WebLogic 应 用 服务 器 开启 一 组 应 用 服务 器 事件 : 
JDBC 操作 、HTTP 操作 等 。 这 些 事件 和 前 面 所 讨论 的 JFR 事件 一 样 : 它们 可 以 单个 
开启 ， 可 以 有 关联 的 阅 值 ， 等 等 。 同 样 ， 最 新 版 本 的 JVM 可 能 会 添加 一 些 这 里 没有 讨 
论 到 的 事件 。 


详情 请 查阅 最 新 的 产品 文档 。 

















收集 事件 自然 会 引入 一 些 开销 。 触 发 事件 收集 的 国 值 一 一 因为 增加 了 事件 一 一 在 开启 JFR 
记录 时 也 会 增加 开销 。 默 认 记 录 中 不 会 收集 所 有 的 事件 (6 个 最 耗资 源 的 事件 没有 开启 )， 
基于 事件 的 国 值 有 些 高 。 这 使 得 默认 记录 的 开销 小 于 1%。 


有 时 额外 的 开销 是 值得 的 。 例 如 ， 考 虑 TLAB 事件 ， 它 可 以 帮助 你 判断 对 象 是 否 正直 接 
分 配 到 老年 代 ， 但 上 默认 情况 下 这 些 事件 没有 开启 记录 。 同 样 ， 上 默认 记录 开启 了 性 能 分 析 事 
件 ， 但 只 有 每 20 毫秒 一 一 可 以 给 出 适当 的 概览 ， 但 也 可 能 导致 采样 错误 。 

JFR 捕获 的 事件 (包括 事件 的 闷 值 ) 都 定义 在 模板 中 (可 通过 命令 行 的 设置 选项 选择 )。 
JFR 自 带 了 两 个 模板 : 默认 模板 (限制 了 事件 使 得 开销 效率 1%) 和 性 能 分 析 模 板 (大 多 
数 基 于 国 值 的 事件 被 设置 为 每 10 毫秒 触发 )。 这 个 性 能 分 析 模 板 的 开销 估计 是 2% (而 你 
的 数据 通常 也 都 不 一 样 ， 我 观察 到 的 典型 开销 要 比 这 小 得 多 )。 

模板 由 jnc 模板 管理 器 管理 。 你 可 能 已 经 注意 到 图 3-13 中 启动 模板 管理 器 的 按钮 了 。 模 板 
保存 在 两 个 地 方 : $4HOME/.jmc/<release> 目录 (用 户 本 地 ) 下 ， 和 $JAVA_HOME/jre/lib/ 
jfr (JVM 全 局 ) 下 。 模 板 管理 器 允许 你 选择 全 局 模板 (可 以 说 模板 “在 服务 器 上 ”)， 选 
择 本 地 模板 ， 或 定义 新 模板 。 定 义 模板 上 时， 来 回 多 看 看 可 用 的 事件 ， 依 据 需 要 开启 (或 关 
闭 ) 它们 ， 还 可 以 选择 根据 需要 来 设置 事件 国 值 。 

图 3-14 显示 File Read 事件 开启 ， 并 且 阔 值 为 15 毫秒 : 读 取 文 件 超过 该 值 的 就 会 触发 事 
件 。 这 个 事件 也 可 以 配置 为 给 File Read 事件 产生 栈 追 踪 信 息 。 这 增加 了 开销 一 一 这 就 是 为 
可 抓 取 事 件 栈 追 踪 信 息 是 可 配置 的 选项 。 
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Template Event Details 


Name' [Custom Template 


Description; 


Filter: | | 





* 国 Throwables 
* 园 Allocation in newTLAB 
* 国 Allocation outsideTLAB 
了 加 File Read 
‘<> Enabled=true 
“E> Stack Trace=true 
< Threshold=15ms 
* 国 File Write 


Threshold [15ms| 

















3-14: JFR 事件 模板 的 一 个 样本 


事件 模板 是 简单 的 XML 文件 ， 所 以 判断 模板 中 哪个 事件 开启 (以 及 闵 值 和 栈 追 踪 信 息 配 
置 ) 的 最 好 办 法 是 阅读 XML 文件 。XML 作为 配置 文件 ， 使 得 本 地 模板 可 以 在 一 台 机 器 上 
定义 ， 然 后 复制 到 全 局 模板 目录 下 ， 供 团队 中 的 其 他 人 使 用 。 


快速 小 结 

1. 由 于 JFR 内 建 于 JVM， 所 以 可 以 最 大 可 能 地 查看 JVM 内 部 。 

2. 像 其 他 工具 一 样 ，JFR 给 应 用 引入 了 一 些 开销 。 对 于 日 常 使 用 ， 可 以 开 
启 JFR， 以 较 低 的 开销 收集 大 量 信 息 。 

3. JFR 用 于 性 能 分 析 ， 但 它 在 生产 系统 中 也 很 有 用 ， 所 以 你 可 以 检查 那些 
导致 失败 的 事件 。 

















3.5 小结 


好 的 工具 是 性 能 分 析 成 功 的 关键 。 对 于 工具 所 能 告诉 我 们 的 信息 ， 本 章 只 是 皮毛 。 关 键 是 
要 记 住 以 下 几 点 。 








没有 完美 的 工具 ， 每 种 工具 也 各 有 所 长 。 分 析 器 X 可 能 适合 很 多 应 用 ， 但 可 能 有 些 情 
况 下 开会 缺少 一 些 信息 ,而 分 析 器 0 这 些 信息 。 你 总 是 需要 灵活 使 用 。 
命令 行 监控 工具 可 以 自动 收集 重要 数据 ， 内 人 自动 化 人 对 E 够 收集 监控 数据 。 
工具 的 演变 非常 快 ， 本 章 提 到 的 一 些 工 具 可 能 已 经 过 时 了 (或 者 已 经 被 新 的 更 强大 的 工 
具 所 取代 )。 这 个 领域 很 重要 的 一 点 就 是 要 与 时 俱 进 。 
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第 4 章 


J 川 编 译 器 





即时 (Just-In-Time，JIT) 编译 器 是 Java 虚拟 机 的 核心 。 对 JVM 性 能 影响 最 大 的 莫 过 于 编译 
器 ， 而 选择 编译 器 是 运行 Java 程序 时 首先 要 做 的 选择 之 一 一 一 无 论 你 是 Java 开发 人 员 还 是 
最 终 用 户 。 幸 运 的 是 ， 在 绝 大 多 数 情 况 下 ， 只 需要 对 编译 器 做 一 些 基 本 的 调 优 。 

本 章 将 深入 介绍 编译 器 。 首 先 介 绍 编译 器 的 工作 原理 ， 并 讨论 JIT 编译 器 的 优点 和 不 足 。 
然后 转 而 介绍 每 个 Java 版 本 所 包括 的 编译 器 : 为 特定 场景 选择 合适 的 编译 器 ， 是 你 为 了 程 
序 快速 运行 所 采取 的 最 重要 的 步骤 ， 你 需要 明白 这 个 道理 。 本 音 的 最 后 涵盖 了 一 些 编译 器 
调 优 的 中 高 级 技巧 。 这 些 调 优 技 巧 有 助 于 使 应 用 的 性 能 百 尺 笔头 更 进一步 。 


4.1 JIT 编 译 器 : 概览 


先 作 一 些 介绍 ， 如 果 你 基本 理解 即时 编译 的 话 ， 可 以 放心 大 胆 地 跳 过 开头 这 段 。 

计算 机 一 一 更 具体 说 是 CPU 一 一 只 能 执行 相对 少 而 特定 的 指令 ， 这 被 称 为 汇编 码 或 者 二 进 
制 码 。 因 此 ，CPU 所 执行 的 所 有 程序 都 必须 翻译 成 这 种 指令 。 

像 C++ 和 Fortran 这 样 的 语言 被 称 为 编译 型 语言 ， 因 为 它们 的 程序 都 以 二 进 制 ( 编 译 后 的 ) 
形式 交付 : 先 写 程序 ， 然 后 用 编译 器 静态 生成 二 进 制 文件 。 这 个 二 进 制 文件 中 的 汇编 码 是 
针对 特定 CPU 的 。 只 要 是 兼容 的 CPU， 都 可 以 执行 相同 的 二 进 制 代 码 : 比如 ，AMD 和 
Intel CPU 共享 一 个 基本 的 、 常 用 的 汇编 语言 指令 集 ， 新 版 本 的 CPU 几乎 总 是 能 执行 与 老 
版 本 CPU 相同 的 指令 集 。 但 反 过 来 并 不 总 是 成 立 ， 新 版 本 的 CPU 时 常会 引入 一 些 指令 ， 
这 些 指令 无 法 在 老 版 本 CPU 上 运行 。 

另外 还 有 一 些 像 PHP 和 Perl 这 样 的 语言 ， 则 是 解释 型 的 。 只 要 机 器 上 有 合适 的 解释 器 
( 即 称 为 php 或 perl 的 程序 )， 相 同 的 程序 代码 可 以 在 任何 CPU 上 运行 。 执 行程 序 时 ， 解 
释 器 会 将 相应 代码 转换 成 二 进 制 代码 。 
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每 种 语言 类 型 都 各 有 长 处 和 不 足 。 解 释 性 型 语言 的 程序 可 移植 : 相同 的 代码 你 丢 到 任何 有 
适当 解释 器 的 机 器 上 ， 它 都 能 运行 。 但 是 ， 它 运行 起 来 可 能 就 慢 了 。 举 个 简单 的 例子 ， 不 
妨 考 虑 一 下 执行 循环 时 会 发 生 什么 ， 当 解释 器 执行 循环 体 时 ， 会 重新 翻译 每 一 行 代码 。 编 
译 过 后 的 代码 就 不 必 再 重复 做 这 样 的 转换 了 。 

好 的 编译 器 在 生成 二 进 制 代码 时 需要 考虑 许多 因素 。 一 个 简单 例子 是 二 进 制 代码 中 的 语 
名 顺序 : 生成 的 汇编 语言 指令 与 执行 时 的 顺序 并 不 完全 相同 。 执 行 两 个 寄存 器 值 相 加 的 
语句 可 能 只 需要 一 个 时 钟 周期 ， 但 〈 从 主 存储 器 ) 获取 加 法 所 需要 的 数据 可 能 需要 好 几 
个 周期 。 


因此 ， 好 的 编译 器 生成 的 二 进 制 代码 需要 包括 装载 数据 、 执 行 其 他 指令 ， 然 后 一 一 当 数 据 
准备 好 时 一 一 执行 加 法 。 而 一 次 只 能 看 一 行 的 解释 器 就 没有 足够 的 信息 生成 这 样 的 代码 
了 。 它 会 请 求 内 存 数据 ， 然 后 一 直 等 到 数据 准备 好 之 后 再 执行 加 法 。 稍 差点 的 编译 器 也 这 
么 干 ， 而 且 顺 便 说 一 句 ， 即 便 是 最 好 的 编译 器 偶尔 也 需要 等 待 指令 完成 。 

由 于 这 些 (或 其 他 的 ) 原因 ， 解 释 型 代码 几乎 总 是 明显 比 编译 型 代码 要 慢 : 编译 器 有 足够 
的 程序 信息 ， 这 些 信息 可 用 来 大 量 优化 二 进 制 代码 ， 这 些 是 简单 解释 器 无 法 做 到 的 。 
解释 型 代码 的 优势 在 于 可 移植 。 很 显然 ，SPARC CPU 的 二 进 制 编译 器 无 法 在 Intel CPU 上 
运行 。 而 用 Intel Sandy Bridge 处 理 器 最 新 AVX 指令 的 二 进 制 代码 也 无 法 在 老 的 Intel 处 理 
器 上 运行 。 因 此 ， 商 业 软件 通常 会 在 较 老 的 处 理 器 上 编译 ， 从 而 无 法 利用 最 新 的 指令 。 这 
里 面 有 很 多 技巧 ， 例 如 ， 发 布 二 进 制 代码 时 附带 多 个 共享 库 ， 而 这 些 共享 库 执行 的 代码 都 
是 对 性 能 较 敏 感 的 ， 还 要 有 多 种 版 本 与 各 种 类 型 的 CPU 相 匹配 。 


Java 试图 走 一 条 中 间 路 线 。Java 应 用 会 被 编译 一 一 但 不 是 编译 成 特定 CPU 所 专用 的 二 进 
制 代 码 ， 而 是 被 编译 成 一 种 理想 化 的 汇编 语言 。 然 后 该 汇编 语言 〈 称 为 Java 字 节 码 ) 可 以 
用 java 运行 (与 php 解释 运行 PHP 脚本 是 相同 的 道理 )。 这 使 得 Java 成 为 一 门 平台 独立 
的 解释 型 语言 。 因 为 java 程序 运行 的 是 理想 化 的 二 进 制 代码 ， 所 以 它 能 在 代码 执行 时 将 其 
编译 成 平台 特定 的 二 进 制 代 码 。 由 于 这 个 编译 是 在 程序 执行 时 进行 的 ， 因 此 被 称 为 “即时 
译 ”( 即 JIT)。 


Java 虚拟 机 在 执行 时 编译 代码 的 这 种 方式 是 本 章 关注 的 重点 。 


如 第 1 章 讨论 的 那样 ， 本 书 中 的 Java 实现 是 Oracle 的 HotSpot JVM。HotSpot 的 名 字 来 自 
于 它 看 待 代码 编译 的 方式 。 对 于 程序 来 说 ， 通 常 只 有 一 部 分 代码 被 经 常 执 行 ， 而 应 用 的 性 
能 就 取决 于 这 些 代码 执行 得 有 多 快 。 这 些 关 键 代 码 段 被 称 为 应 用 的 热点 ， 代 码 执 行 得 越 多 
就 被 认为 是 越 热 。 
因此 JVM 执行 代码 时 ， 并 不 会 立即 编译 代码 。 有 两 个 基本 理由 。 第 一 ， 如 果 代 码 只 执行 
一 次 ， 那 编译 完全 就 是 浪费 精力 。 对 于 只 执行 一 次 的 代码 ， 解 释 执 行 Java 字 节 码 比 先 编译 
然后 执行 的 速度 快 。 

但 如 果 代 码 是 经 党 被 调用 的 方法 ， 或 者 是 运行 很 多 次 迭代 的 循环 ， 编 译 就 值得 了 : 编译 的 
代码 更 快 ， 多 次 执行 累积 节约 的 时 间 超 过 了 编译 所 花费 的 时 间 。 这 种 权衡 是 编译 器 先 解释 
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执行 代码 的 原因 之 一 一 一 编译 器 可 以 找 出 哪个 方法 被 调用 得 足够 频 千 ， 可 以 进行 编译 。 

















第 二 个 理由 是 为 了 优化 : JVM 执行 特定 方法 或 者 循环 的 次 数 越 多 ， 它 就 会 越 了 解 这 段 代 








码 。 这 使 得 JVM 可 以 在 编译 代码 时 进行 大 量 优化 。 





本 章 后 面 将 讨论 这 些 大 量 的 优化 (以 及 影响 它们 的 方法 )， 先 考虑 一 个 简单 的 例子 ， 昌 
equals() 方法 。 这 个 方法 存在 于 每 个 Java 对 象 中 (既然 所 有 类 都 继承 自 0bject 类 )， 并 











有 





且 经 常 被 子 类 重 写 。 当 解释 器 遇 到 b = obj1.equals(obj?) 语句 时 ， 为 了 知道 该 执行 哪个 


equals()， 必 须 先 查找 obj1 的 类 型 (类 )。 这 个 动态 查找 的 过 程 有 点 消耗 时 间 。 





寄存 器 和 主 内 存 
编译 器 最 重要 的 优化 包括 何 时 使 用 主 内 存 中 的 值 ， 以 及 何 时 在 寄存 器 中 存 贮 值 。 考 虑 
以 下 代码 : 


public class RegisterTest { 
private int sum; 


public void calculateSum(int n) { 
for (int i = 0; i < n; i+t+) { 
Sum += i; 
} 
} 
} 


在 某 个 时 刻 ， 实 例 变 量 sum 必须 驻 留 在 主 内 存 中 ， 但 从 主 内 存 获 取 数 据 是 昂贵 的 操作 ， 
需要 花费 多 个 时 钟 周期 才能 完成 。 如 果 每 次 循环 选 代 都 从 主 内 存 获取 (或 保存) sum 
的 值 ， 性 能 就 比较 糟 炎 了 。 编 译 器 不 会 这 么 做 ， 它 会 将 sum 的 初始 值 装 入 寄存 器 ， 用 
等 存 器 中 的 值 执行 循环 ， 然 后 (在 某 个 不 确定 的 时 刻 ) 将 最 终 的 结果 从 寄存 器 写 回 到 
主 内 存 。 

这 种 优化 非常 高 效 ， 但 这 意味 着 线程 同步 的 语义 (参见 第 9 章 ) 对 应 用 行为 非常 重要 。 
一 个 线程 无 法 看 到 另 一 个 线程 所 用 寄存 器 中 保存 变量 的 值 ， 同 步 机 制 使 得 从 寄存 器 写 
回 主 内 存 时 其 他 线程 可 以 准确 地 读 到 这 个 值 。 

使 用 寄存 器 是 编译 器 普遍 采用 的 优化 方法 ， 当 开启 逃 闭 分析 (escape analysis) 时 ( 参 
见 本 章 末 尾 )， 和 寄存 器 的 使 用 更 为 频繁 。 














比如 说 ， 随 着 时 间 的 流逝 ，JVM 发 现 每 次 执行 这 条 语句 时 ，obj1 的 类 型 都 是 java.Lang. 
String。 于 是 JVM 就 可 以 生成 直接 调用 String.equals() 的 编译 代码 。 现 在 代码 更 快 了 ， 





不 仅 是 因为 被 编译 ， 也 是 因为 跳 过 了 查找 该 调用 哪个 方法 的 步骤 。 








不 过 没 那么 简单 。 下 次 执行 代码 时 ，objl 完全 有 可 能 是 别 的 类 型 而 不 是 String， 所 以 
JVM 必须 生成 编译 代码 处 理 这 种 可 能 。 尽 管 如 此 ， 由 于 跳 过 了 方法 查找 的 步骤 ， 这 里 的 
编译 代码 整体 性 能 仍然 要 快 (至 少 和 obj1 一 直 是 String 时 同样 快 )。 这 种 优化 只 有 在 代 
码 运行 过 一 段 时 间 观 察 它 如 何 做 之 后 才能 使 用 : 这 是 为 何 JIT 编译 器 等 待 代码 编译 的 第 














二 个 原因 。 
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1，Java 的 设计 结合 了 脚本 语言 的 平台 独立 性 和 编译 型 语言 的 本 地 性 能 。 

2.Java 文件 被 编译 成 中 间 语 言 (Java 字 节 码 )， 然 后 在 运行 时 被 JVM 进 一 
步 编译 成 汇编 语言 。 

3. 字 市 码 编译 成 汇编 语言 的 过 程 中 有 大 量 的 优化 ， 极 大 地 改善 了 性 能 。 


4.2 调 优 入 门 : 选择 编译 器 类 型 (Client、 
Server 或 二 者 同 用 ) 


有 两 种 “口味 ”的 JIT 编译 器 ， 选 择 哪 种 常常 是 应 用 运行 时 所 需 做 的 仅 有 的 编译 器 调 优 。 
事实 上 ， 甚 至 在 安装 Java 之 前 就 必须 考虑 如 何 选 择 编译 器 ， 因 为 不 同 的 Java 安装 包 包 含 
了 不 同 的 编译 器 。 我 们 来 逐步 分 析 。 首 先 找 出 何 种 环境 下 该 用 哪 种 编译 器 。 


这 两 种 编译 器 被 称 为 client 和 server。 名 字 来 自 于 命令 行 上 用 于 选择 编译 器 的 参数 ( 例 
如 -client 或 -server)。JVM 开发 者 (甚至 一 些 工 具 ) 通常 称 这 些 编译 器 为 C1 (编译 器 
1，client 编译 器 ) 和 C2 (编译 器 2，server 编译 器 ) 。 它 们 的 名 字 似 乎 意味 着 如 何 选择 编译 
器 受 程序 运行 的 硬件 平台 的 影响 ， 但 这 并 不 完全 正确 : 特别 是 到 现在 ， 这 些 术语 已 经 超过 
了 整整 15 年 ， 你 的 “client” 笔 记 本 也 已 经 是 4 到 8 核 的 CPU 和 8 GB 内 存 (处 理 能 力 比 
Java 刚 诞 生 时 的 中 型 服务 器 还 要 强 )。 






































与 众 不 同 的 编译 器 标志 
选择 编译 器 的 Java 标志 与 大 多 数 标志 不 同 ， 大 都 没有 使 用 -XX。 标 准 的 编译 器 标志 是 
这 几 个 简单 的 词语 : -client、-server 或 -d64。 
分 层 编 译 (tiered compilation) 是 个 例外 ， 标 志 采 用 常见 的 开局 
-XX:+TieredCompilation。 分 层 编译 意味 着 ' 作 须 使 用 server 编译 器 。 下 面 的 命令 行 隐 含 
着 关闭 分 层 编 译 ， 因 为 与 client 编译 器 的 选择 冲突 。 


% java -client -XX:+TieredCompilation other_args 











两 种 编译 器 的 最 主要 的 差别 在 于 编译 代码 的 时 机 不 同 。client 编译 器 开启 编译 比 server 编 
译 器 要 早 。 意 味 着 在 代码 执行 的 开始 阶段 ，client 编译 器 比 server 编译 器 要 快 ， 因 为 它 的 
译 代 码 相 比 server 编译 器 而 言 要 多 。 
此 处 工程 上 考虑 的 权衡 是 ，server 编译 器 等 待 编译 的 时 候 是 否 还 能 做 更 有 价值 的 事 : server 
译 器 在 编译 代码 时 可 以 更 好 地 进行 优化 。 最 终 ，server 编译 器 生成 的 代码 要 比 client 编 
译 器 快 。 从 用 户 角 度 看 ， 权 衡 的 取舍 在 于 程序 要 运行 多 久 ， 程 序 的 启动 时 间 有 多 重要 。 

此 处 最 明显 的 问题 是 ， 为 什么 需要 人 来 做 这 种 选择 ? 为 什么 JVM 不 能 在 启动 时 用 client 编 
译 器 ， 然 后 随 着 代码 变 热 使 用 server 编译 器 ? 这 种 技术 被 称 为 分 层 编 译 。 代 码 先 由 client 
编译 器 编译 ， 随 着 代码 变 热 ， 由 server 编译 器 重新 编译 。 

Java 7 的 早期 发 布 版 中 曾经 提供 了 分 层 编译 的 实验 性 版 本 ， 结 果 却 发 现 技 术 上 存在 许多 难 
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点 (尤其 是 两 种 编译 器 架构 的 不 同 ) ， 所 以 这 些 实验 版 的 分 层 编 译 效 果 并 不 好 。 从 Java 7u4 
开始 ， 这 些 难 点 很 大 程度 上 得 到 了 解决 ， 所 以 分 层 编译 常常 可 以 让 应 用 发 挥 最 佳 性 能 。 
Java 7 中 的 分 层 编译 有 些 环 症 ， 所 以 没 能 成 为 默认 设置 。 尤 其 是 Java 7 的 分 层 编 译 容 易 超 
出 JVM 代码 缓存 的 大 小 ， 使 得 代码 无 法 优化 编译 (虽然 很 容易 处 理 ， 参 见 4.4 节 “ 编 译 
器 的 中 间 代 码 优 化 ”的 讨论 )。 使 用 分 层 编译 需要 指定 server 编译 器 (-server 或 者 确认 它 
是 特定 Java 安装 包 所 用 的 默认 值 )， 并 确保 Java 命令 行 包括 标志 -XX:+TieredCompilation 
(默认 值 为 false)。Java 8 中 ， 分 层 编译 默认 为 开启 。 


为 了 解 其 中 的 权衡 ， 我 们 来 看 一 些 例子 。 


4.2.1 优化 启动 

当 快 速 启动 时 间 是 首要 目标 时 ， 最 常 使 用 client 编译 器 。 不 同 应 用 使 用 不 同 编译 器 标志 的 
差别 见 表 4-1。 

表 4-1: 不 同 应 用 在 不 同 编译 器 标志 下 的 启动 时 间 

































































应 用 -CLient -Server -XX:+TieredCompilation 
HelloWorld 0.08 0.08 0.08 
NetBeans 2.83 3.92 3.07 
BigApp 31 光 54.0 52.0 





对 于 简单 的 HeLLowortLd 应 用 ,没有 编译 器 占据 优势 ， 因 为 都 没有 足够 的 代码 可 以 运行 以 便 
优化 。 并 且 对 于 执行 时 间 只 有 80 毫秒 的 任务 ， 我 们 也 很 难 注意 到 性 能 差异 是 否 真 的 存在 。 

NetBeans 是 相当 上 典型、 规模 适中 的 Java GUI 应 用 。 它 启动 时 ， 装 载 约 10 000 个 类 ， 初 始 化 
一 些 图 形 对 象 等 。 启 动 时 ，client 编译 器 有 很 明显 的 优势 : 显而易见 ，server 编译 器 的 启动 慢 
了 38.5%， 大 约 相 差 了 1 秒 。 注 意 分 层 编 译 器 并 不 是 很 快 ， 虽然 只 慢 了 约 8%， 相 差 并 不 大 。 

这 就 是 为 什么 NetBeans 许多 GUI 程序 喜欢 它 ， 包 括 Web 浏览 器 所 用 的 Java 插件 一 一 
默认 使 用 client 编译 器 的 原因 。 人 性 能 是 王道 : 其 他 部 分 还 不 错 的 情况 下 ， 启 动 若 快 ， 便 是 
睛 天 ， 用 户 就 会 倾向 于 认为 整个 程序 都 像 启动 那样 快 。 






































启动 时 间 要 紧 吗 ? 
关于 GUI 程序 有 个 重要 的 观点 ， 即 整体 性 能 比 启动 性 能 更 重要 ， 而 且 这 种 场景 更 适合 
使 用 server 编译 器 。 
如 果 server 编译 器 优化 了 应 用 中 的 GUI 代码 ， 最 终 GUI 的 响应 性 会 有 所 提高 ， 不 过 
最 终 用 户 可 能 不 太 会 注意 到 这 种 差别 。 但 是 ， 如 果 程 序 执行 了 大 量 其 他 计算 ， 这 样 做 
就 有 意义 了 。 比 如 ，NetBeans 可 以 进行 大 范围 的 (和 昂贵 的 ) 代码 重 构 ， 如 果 使 用 
Server 编译 器 ， 速 度 就 会 很 快 。 
通常 程序 供应 商会 考虑 默认 的 编译 器 应 该 是 哪 种 (因为 启动 时 间 是 大 家 首先 讨论 的 事 
情 之 一 ， 所 以 这 些 程序 通常 被 优化 成 有 最 佳 的 启动 时 间 )。 如 果 你 的 应 用 与 此 不 同 ， 不 
要 犹 驳 ， 应 该 尽量 使 用 server 编译 器 或 分 层 编 译 器 。 
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最 后 来 看 BigApp: 一 个 很 大 的 服务 器 程序 ， 装 载 超过 20 000 个 类 ， 初 始 化 范围 很 广 。 因 为 
是 服务 器 应 用 ， 可 以 肯定 它 需 要 使 用 server 编译 器 。 尽 管 运 行 着 许多 进程 ， 对 client 编译 
器 仍然 有 些许 优势 。 这 个 例子 的 重点 是 第 1 章 中 所 提 到 的 : 问题 并 不 总 在 JVM。 在 这 个 示 
例 中 ， 需 要 从 磁盘 读 取 大 量 的 JAR 文件 ， 从 而 制约 了 性 能 〈 除 此 以 外 ， 启 动 上 的 差异 更 有 
利于 client 编译 器 ) 。 


快速 小 结 
1， 如 果 应 用 的 启动 时 间 是 首要 的 性 能 考量 ， 那 client 编译 器 就 是 最 有 用 的 。 
2. 分 层 编译 的 启动 时 间 可 以 非常 接近 于 client 编译 器 所 获得 的 启动 时 间 。 



































4.2.2 ”优化 批 处 理 


对 于 批 处 理应 用 来 说 一 一 处 理 的 工作 量 固定 一 一 编译 器 的 选择 ， 归 根 到 底 取 决 于 哪 种 编译 
器 使 得 应 用 运行 的 时 间 最 优 。 表 4-2 是 一 个 例子 。 


表 4-2: 批 处 理应 用 在 不 同 编译 器 下 的 执行 时 间 



































股票 数量 -client ( 秒 ) -server ( 秒 ) -XX:+TieredCompilation ( 秒 ) 
1 0.142 0.176 0.165 
10 0.211 0.348 0.226 
100 0.454 0.674 0.472 
1000 2.556 2.158 1.910 
10 000 23.78 14.03 13.56 





使 用 第 2 章 中 的 代码 即 股票 的 例子 ， 此 处 获取 1 年 的 历史 信息 (以 及 平均 数 和 标准 差 )， 
股票 数量 从 1 到 10 000。 


股票 数量 为 1 到 100 时 ，client 编译 器 最 快 完成 启动 任务 ， 说 明 如 果 处 理 的 股票 数量 少 于 
100 只 ，client 编译 器 是 最 佳 选择 。 之 后 ， 性 能 优势 就 偏向 了 server 编译 器 (特别 是 分 层 编 
译 的 server 编译 器 ) 。 即 便 是 少量 股票 ， 分 层 编 译 的 性 能 也 很 接近 于 client 编译 器 ， 所 以 分 
层 编译 是 适合 所 有 情况 的 很 好 的 备 选 方案 。 

还 有 一 点 比较 重要 ， 分 层 编 译 总 是 比 标准 的 server 编译 器 好 一 些 。 理 论 上 ， 一 旦 程序 足 
够 运行 ， 编 译 了 所 有 的 热点 ，server 编译 器 就 应 该 达到 最 佳 (或 至 少 等 同 于 ) 的 性 能 。 但 
任何 程序 都 有 一 小 部 分 代码 很 少 执行 。 最 好 是 编译 这 些 代码 即便 编译 不 是 最 好 的 方 
法 一 一 而 不 是 以 解释 模式 运行 。 正 如 本 章 后 面 (参见 4.4.2 节 “ 编 译 国 值 ”) 所 讨论 的 ， 实 
际 上 即便 应 用 永远 运行 ，server 编译 器 也 不 可 能 编译 它 的 所 有 代码 。 

快速 小 结 

1. 对 于 计算 量 固定 的 任务 来 说 ， 应 该 选择 实际 执行 任务 最 快 的 编译 器 。 

2. 分 层 编 译 是 批 处 理 任务 合理 的 默认 选择 。 
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4.2.3 优化 长 时 间 运 行 的 应 用 

最 后 我 们 来 看 看 在 不 同 的 编译 器 下 ， 长 时 间 运 行 的 应 用 之 间 的 性 能 差别 。 衡 量 长 时 间 运 行 
的 应 用 的 性 能 ， 通 常 来 说 ， 是 在 应 用 “热身 ”之 后 一 一 意味 着 它 已 经 运行 了 足够 长 的 时 
间 ， 重 要 的 代码 都 已 经 被 编译 一 一 测量 它 处 理 的 吞吐 量 。 

例子 使 用 基本 的 股票 计算 ， 并 在 servlet 中 进行 。 每 次 调用 servlet 就 会 随机 抽取 一 只 股票 
25 年 的 信息 。 表 4-3 是 用 第 2 章 介 绍 的 fhb 程序 获取 的 数据 ， 显 示 热 身 期 为 0、60 和 300 
秒 时 ， 每 秒 的 调用 次 数 。 

表 4-3: 服务 器 应 用 在 不 同 热身 期 下 的 吞吐 量 

















热身 期 ( 秒 ) -client -server -XX:+TieredCompilation 
0 15.87 23.72 24.23 
60 16.00 23.73 24.26 
300 16.85 24.42 24.43 


由 于 测试 的 周期 为 60 秒 ， 所 以 即便 没有 热身 期 ， 编 译 器 仍然 可 以 获得 足够 的 信息 编译 热 
点 ， 因 此 server 编译 器 在 本 例 中 总 是 比较 好 。( 另 外 ， 大 量 代码 会 在 应 用 服务 器 启动 时 进 
行 编译 。) 如 之 前 所 讨论 的 ， 相 比 单独 的 server 编译 器 ， 分 层 编 译 可 以 编译 更 多 代码 ， 提 
供 更 多 性 能 。 
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对 于 长 时 间 运 行 的 应 用 来 说 ， 应 该 一 直 使 用 server 编译 器 ， 最 好 配合 分 层 


4.3 Java 和 JIT 编 译 器 版 本 


各 种 测试 的 编译 器 之 间 是 有 差别 的 ， 我 们 来 看 下 如 何 获 得 合适 的 编译 器 。 在 你 下 载 Java 
时 ， 需 要 选择 版 本 ， 而 最 终 的 选择 取决 于 你 所 用 的 平台 。Java 版 本 的 选择 也 会 影响 JIT 编 
译 器 。 到 目前 为 止 ， 我 们 讨论 了 client 和 server 编译 器 ， 实 际 上 JIT 编译 器 有 3 种 版 本 : 

。 32 位 client 编译 器 (-client) 

。 32 位 server 编译 器 (-server) 

。 64 位 server 编译 器 (-d64) 


从 某 种 程度 上 说 ， 你 选择 使 用 的 编译 器 取决 于 所 给 的 命令 行 选 项 参数 (-server 等 )。 然 而 
事情 并 没有 这 么 简单 。 














32 位 还 是 64 位 ? 
如 果 是 32 位 操作 系统 ， 那 你 必须 使 用 32 位 的 JVM。 如 果 是 64 位 操作 系统 ， 那 你 可 
以 选择 32 位 或 64 位 Java。 并 没有 规定 64 位 操作 系统 必须 使 用 64 位 Java。 


如 果 堆 小 于 3 GB，32 位 的 Java 会 更 快 一 些 ， 并 且 内 存 占 用 也 更 少 。 这 是 因为 JVM 内 
部 的 指针 只 有 32 位 ， 操 作 32 位 指针 的 代价 要 少 于 64 位 指针 的 (即便 你 使 用 的 是 64 
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位 CPU)。 而 且 32 位 指针 所 占 的 内 存 也 少 。 


第 8 章 讨论 了 压缩 的 普通 对 象 指针 (ordinary object pointers，oops)， 这 是 一 种 在 64 位 
JVM 中 使 用 32 位 寻 址 的 方法 。 不 过 ， 即 便 有 这 种 优化 ，64 位 JVM 的 内 存 占 用 仍然 大 
于 32 位 JVM， 这 是 因为 它 所 用 的 本 地 代码 依然 是 64 位 寻 址 。 


32 位 JVM 的 不 足 之 处 是 进程 最 多 只 能 占用 4 GB 内 存 ( 某 些 版 本 的 Windows 为 3 GB， 
某 些 老 版 本 的 Linux 为 3.5 GB)。 而 且 还 包括 了 堆 、 永 久 代 (permgen) 和 本 地 代码 以 
及 JVM 所 用 的 本 地 内 存 。 还 有 一 个 非常 特殊 的 案例 ， 因 为 32 位 JVM 无 法 使 用 CPU 的 
64 位 寄存 器 ， 所 以 大 量 使 用 Long 或 double 变量 的 程序 在 32 位 JVM 上 就 会 比较 慢 。 

在 32 位 JVM 上 运行 的 程序 ， 只 要 与 32 位 寻 址 空间 吻合 ， 无 论 机 器 是 32 位 还 是 64 
位 ， 都 要 比 在 类 似 配 置 的 64 位 JVM 上 运行 时 快 5% 到 20%。 比 如 ， 本 章 前 面 讨论 的 
股票 批 处 理 程序 ， 在 我 台式 机 的 32 位 JVM 上 运行 时 ， 就 要 快 20%。 











在 下 载 特定 操作 系统 的 Java 时 ， 只 有 两 个 选项 : 32 位 或 64 位 JVM。 而 准确 地 说 ，32 位 
JVM (最 多 ) 有 两 种 编译 器 ， 而 64 位 只 有 一 种 编译 器 。( 实 际 上 64 位 JVM 也 有 两 种 编译 
器 ， 因 为 分 层 编 译 需 要 有 client 编译 器 的 支持 。 但 在 只 有 client 编译 器 时 ，64 位 JVM 无 法 
运行 。) 

不 过 一 旦 安装 之 后 ， 事 情 就 变 得 有 些 复 杂 了 。 在 大 多 数 平 台 上 ，32 位 和 64 位 是 分 开 安装 
的 。 在 你 的 电脑 里 可 以 有 两 种 JVM， 但 必须 通过 不 同 路 径 来 区 分 引用 。 因 此 ， 在 我 测试 
Linux 的 机 器 上 ， 我 安装 了 /export/VMs/jdk1.7.0-32bit 和 /export/VMs/jdk1.7.0-64bit， 通 过 
设置 相应 的 PATH 来 选择 。 


在 Solaris 上 则 有 所 不 同 : 64 位 的 安装 会 覆盖 32 位 。 因 此 所 有 的 3 种 编译 器 都 在 相同 的 
路 径 上 。 对 于 最 终 用 户 来 说 更 容易 。 尤 其 是 ，Java 安装 在 系统 路 径 /ust/bin 上 时 ， 用 户 
就 总 能 通过 命令 行 从 3 种 编译 器 中 指定 他 所 想 要 的 。 不 过 这 种 安装 方式 也 有 问题 ， 由 于 
HotSpot 的 开发 人 员 通 常 使 用 Solaris 作为 主要 的 开发 系统 ， 所 以 事情 就 变 得 更 复杂 了 ， 所 
用 的 安装 方式 会 使 讨论 (有 时 是 文档 ) 变 得 令 人 迷惑 。 

关于 编译 器 ， 最 后 要 说 的 一 点 是 : 考虑 到 兼容 性 ， 指 定 使 用 哪 种 编译 器 的 规则 并 没有 被 严 
格 遵守 。 如 果 64 位 JVM 上 设 定 -client， 那 无 论 怎样 应 用 都 会 使 用 64 位 server 编译 器 。 
如 果 32 位 JVM 上 设 定 -464， 就 会 抛 出 所 给 实例 不 支持 64 位 JVM 的 错误 。 

总 结 一 下 : 编译 器 的 选择 取决 于 安装 的 JVM 是 32 位 还 是 64 位 ， 以 及 传递 给 JVM 的 编译 
器 参数 。 表 4-4 显示 了 在 给 定 JVM 安装 版 本 、 给 定 参 数 时 的 编译 器 。 


表 4-4: 不 同 JVM 安 装 版 本 和 不 同 参数 下 的 编译 器 

























































































安装 的 JVM 版 本  -cLient -server -d64 
Linux 32 位 32 位 client 编译 器 32 位 server 编译 器 出 错 
Linux 64 位 64 位 server 编译 器 64 位 server 编译 器 64 位 server 编译 器 
Mac OSX 64 位 server 编译 器 64 位 server 编译 器 64 位 server 编译 器 
Solaris 32 位 32 位 client 编译 器 32 位 server 编译 器 出 错 
Solaris 64 位 32 位 client 编译 器 32 位 server 编译 器 64 位 server 编译 器 
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安装 的 JVM 版 本 。 -client -server -d64 
Windows 32 位 32 位 client 编译 器 32 位 Server 编译 器 出 错 
Windows 64 位 64 位 server 编译 器 64 位 server 编译 器 64 位 server 编译 器 











在 Java 8 中， 上述 所 有 情况 的 默认 值 是 server 编译 器 ， 同 时 也 默认 开启 分 层 编 译 。 


不 设 定 编译 器 参数 会 发 生 什么 ”在 代码 运行 时 ，JVM 选择 默认 的 编译 器 : 默认 编译 器 是 运 
行 时 选择 。 这 个 选择 基于 JVM 认为 机 器 是 “client” 机 器 还 是 “server” 机 器 。 这 个 决策 综 
合 考 虑 了 操作 系统 以 及 机 器 上 的 CPU 数目 。 表 4-5 列 出 了 不 同 的 默认 值 。 


表 4-5: 不 同 OS 和 机 器 上 的 默认 编译 器 















































操作 系统 默认 编译 器 
Windows 32 位 ， 任 意 数 量 的 CPU -client 

Windows 64 位 ， 任 意 数量 的 CPU -server 

MacOS， 任 意 数 量 的 CPU -server 
Linux/Solaris 32 位 ，1 个 CPU -client 
Linux/Solaris 32 位 ，2 个 或 以 上 的 CPU -server 

Linux 64 位 ， 任 意 数量 的 CPU -server 

Solaris 32 位 /64 位 overlay，1 个 CPU -client 

Solaris 32 位 /64 位 overlay，2 个 或 以 上 的 CPU -server (32 位 模式 ) 

确定 默认 的 编译 器 


想 确定 所 安装 的 Java 的 默认 编译 器 ， 可 以 运行 以 下 命令 : 


% java -version 

java version"1.7.0" 

Java(TM) SE Runtime Environment (build 1.7.0-b147) 
Java HotSpot(TM) Server VM (build 21.0-b17, mixed mode) 


上 述 示例 来 自我 的 Linux 桌面 系统 ，32 位 Java。 最 后 一 行 表 示 所 用 的 编译 器 为 以 下 三 
种 之 一 : client (32 位 )、server (32 位 ) 或 server (64 位 )。 如 果 所 安装 的 Java 不 支 
持 特 定 的 编译 器 ， 最 后 一 行将 显示 实际 使 用 的 编译 器 : 

% java -client -version 

java version"1.7.0" 


Java(TM) SE Runtime Environment (build 1.7.0-b147) 
Java HotSpot(TM) 64-Bit Server VM (build 21.0-b17, mixed mode) 


这 个 例子 用 的 是 64 位 Java， 在 Linux 上 只 支持 64 位 server 编译 器 。 











默认 值 是 基于 一 个 理念 的 ， 即 启动 时 间 对 32 位 Windows 机 器 来 说 是 最 重要 的 ， 而 基于 
Unix 的 系统 一 般 来 说 更 关注 长 期 运行 的 性 能 。 一 如 既往 ， 这 其 中 也 有 例外 : 确切 来 说 ， 现 
代 Windows 也 可 以 运行 在 高 性 能 服务 器 上 ， 即 便 是 32 位 模式 ， 这 种 情况 下 也 应 该 使 用 
server 编译 器 。 与 此 类 似 ， 许 多 应 用 服务 器 使 用 简单 的 Java 管理 命令 侦 测 或 变更 配置 ， 即 
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使 在 Unix 机 器 上 ， 这 些 命令 用 client 编译 器 也 很 快 。 

快速 小 结 

1. 不 同 的 Java 支持 不 同 的 编译 器 。 

2. 不 同 的 操作 系统 和 架构 所 支持 的 编译 器 也 不 相同 。 

3. 程序 不 必 指 定编 译 器 ， 而 是 仰 会 平台 所 支持 的 编译 器 。 


4.4 编译 器 中 级 调 优 


大 多 数 情况 下 ， 所 谓 编译 器 调 优 ， 其 实 就 只 是 为 目标 机 器 上 的 Java 选择 正确 的 JVM 和 编 
译 器 开关 (-client、-server 或 -XX:+TieredCompilation) 而 已 。 分 层 编译 通常 是 长 期 运 
行 应 用 的 最 佳 选择 ， 而 对 于 运行 时 间 短 的 应 用 来 说 ， 分 层 编译 与 client 编译 器 的 性 能 差别 
也 只 在 毫 厘 之 内 。 


除了 选择 JVM 和 编译 器 开关 ， 有 些 场景 还 需要 进行 额外 的 调 优 工作 ， 本 节 就 来 探讨 这 一 点 。 


4.4.1 调 优 代码 缓存 

JVM 编译 代码 时 ， 会 在 代码 缓存 中 保留 编译 之 后 的 汇编 语言 指令 集 。 代 码 缓存 的 大 小 固 
定 ， 所 以 一 旦 填 满 ，JVM 就 不 能 编译 更 多 代码 了 。 

很 显然 ， 如 果 代 码 缓存 过 小 ， 就 可 能 会 有 问题 。 一 些 热点 被 编译 了 ， 而 其 他 则 没有 ， 最 终 
导致 应 用 的 大 部 分 代码 都 是 解释 运行 (非常 慢 )。 

这 个 问题 在 使 用 client 编译 器 或 进行 分 层 编译 时 很 常见 。 使 用 常规 的 server 编译 器 时 ， 因 
为 通常 只 有 少量 类 会 被 编译 ， 所 以 能 被 编译 的 类 不 太 可 能 填 满 代码 缓存 。 而 用 client 编译 
器 时 ， 可 被 编译 的 类 可 能 会 非常 多 (因此 也 适合 开启 分 层 编译 )。 

代码 缓存 填 满 时 ，JVM (通常 ) 会 发 出 以 下 警告 : 


Java HotSpot(TM) 64-Bit Server VM warning: CodeCache is full. 
Compiler has been disabled. 

Java HotSpot(TM) 64-Bit Server VM warning: Try increasing the 
code cache size using -XX:ReservedCodeCacheSize= 


有 时 候 容 易 忽 略 这 个 信息 ， 而 且 开 启 分 层 编 译 时 ，Java 7 某 些 版 本 所 输出 的 信息 也 不 正确 。 
本 市 后 面 将 讨论 另 一 种 判断 编译 器 是 否 停 止 编 译 代码 的 方法 ， 即 追踪 输出 的 编译 日 志 。 


表 4-6 列 出 了 不 同 平台 上 代码 缓存 的 默认 值 。 
表 4-6: 各 种 平台 上 代码 缓存 的 默认 大 小 

































































JVM 类 型 代码 缓存 的 默认 大 小 
32 位 client，Java 8 32 MB 

32 位 server， 分 层 编译 ，Java8 240 MB 

64 位 server， 分 层 编 译 ，Java 8 240 MB 

32 位 client，Java7 32 MB 

32 位 server，jJava7 32 MB 

64 位 server，Java7 48 MB 

64 位 server， 分 层 编译 ，Java7 96 MB 
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Java 7 开启 分 层 编 译 时 ， 默 认 的 代码 缓存 通常 就 不 够 用 了 ， 人 常常 需要 扩大 。 使 用 client 编 
译 器 的 大 型 程序 也 需要 增加 代码 缓存 的 大 小 。 


确实 没有 什么 好 的 机 制 可 以 算出 程序 所 需要 的 代码 缓存 。 所 以 ， 如 何 增加 代码 缓存 ， 基 本 
上 就 是 模 着 石头 过 河 ， 通 常 的 做 法 是 简单 地 增加 1 倍 或 3 倍 。 
-XX:ReservedCodeCacheSize=N (对 特定 编译 器 来 说 , N 为 默认 的 值 ) 标志 可 以 设 
置 代 码 缓存 的 最 大 值 。 代 码 缓存 的 管理 和 大 多 数 JVM 内 存 一 样 ， 有 初始 值 (由 
-XX:InitialCodeCacheSize=N 指定 )。 代 码 缓存 从 初始 大 小 开始 分 配 ， 一 旦 充满 就 会 增加 
(直至 最 大 值 )。 代 码 缓存 的 初始 大 小 依据 芯片 架构 和 所 用 的 JVM 编译 器 而 有 所 不 同 〈 例 
如 Intel 机 器 的 client 编译 器 的 初始 代码 缓存 为 160 KB，server 编译 器 的 初始 代码 缓存 为 
2496 KB ) 。 缓 存 大 小 的 自动 调整 在 后 台 进 行 ， 不 会 对 性 能 造成 实际 影响 ， 所 以 通常 只 需要 
设 定 ReservedCodeCachesize 〈 也 就 是 设 定 代码 缓存 的 最 大 值 ) 。 

为 了 永远 不 超出 空间 而 将 代码 缓存 的 最 大 值 设 得 很 大 ， 这 有 没有 什么 坏处 ?这 取决 于 目标 
机 器 上 有 多 少 可 用 资源 。 代 码 缓存 设 为 1 GB，JVM 就 会 保留 1 GB 的 本 地 内 存 空间 。 虽 然 
这 部 分 内 存在 需要 时 才 会 分 配 ， 但 它 仍然 是 被 保留 的 ， 这 意味 着 为 了 满足 保留 内 存 ， 你 的 
机 器 必须 有 足够 的 虚拟 内 存 。 



































保留 内 存 与 已 分 配 内 存 


理解 JVM 保留 内 存 和 分 配 内 存 方式 之 间 的 差别 非常 重要 。 这 种 差别 在 代码 缓存 、Java 
堆 以 及 其 他 JVM 本 地 内 存 结构 中 都 存在 。 


关于 这 个 主题 的 详细 情况 ， 请 参见 8.1 节 的 “内 存 占 用 ”。 











此 外 ， 如 果 是 32 位 JVM， 则 进程 占用 的 总 内 存 不 能 超过 4 GB。 这 包括 Java 堆 、JVM 自 
身 所 有 代码 占用 的 空间 (包括 它 的 本 地 库 和 线程 栈 ) 、 分 配给 应 用 的 本 地 内 存 (或 者 NIO 
库 的 直接 内 存 ) ， 当 然 还 有 代码 缓存 。 

鉴于 上 述 原因 ， 代 码 缓存 总 是 受 限 的 ， 大 型 应 用 〈 甚 至 使 用 分 层 编译 时 的 中 型 应 用 ) 有 时 
需要 就 此 进行 调 优 。 然而， 特别 是 在 64 位 机 器 上 ， 这 个 值 设置 得 太 高 未 必 有 实际 效果 ， 
因为 应 用 不 可 能 超过 进程 的 空间 内 存 ， 且 一 般 来 说 ， 操 作 系 统 会 保留 更 多 的 内 存 。 

通过 jconsoleMemory (内 存 ) 面板 的 Memory Pool Code Cache 图 表 ， 可 以 监控 代码 缓存 。 






































快速 小 结 
1. 代码 缓存 是 一 种 有 最 大 值 的 资源 ， 它 会 影响 JVM 可 运行 的 编译 代码 
总 量 。 


2. 分 层 编译 很 容易 达到 代码 缓存 默认 配置 的 上 限 (特别 是 在 Java 7 中 )。 使 
用 分 层 编 译 时 ， 应 该 监控 代码 缓存 ， 必 要 时 应 该 增加 它 的 大 小 。 











4.4.2 ”编译 阔 值 
本 章 已 经 粗略 地 定义 了 触发 代码 编译 的 条 件 。 其 中 最 主要 的 因素 是 代码 执行 的 频 度 。 一 旦 
执行 达到 一 定 次 数 ， 且 达到 了 编译 阔 值 ， 编 译 器 就 可 以 获得 足够 的 信息 编译 代码 了 。 
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本 节 将 讨论 影响 这 些 国 值 的 调 优 标志 。 不 过 ， 本 节 实 际 上 是 为 了 让 你 对 编译 器 如 何 工作 有 
个 更 深入 的 了 解 (并 引入 一 些 术 语 )。 实 际 上 只 有 一 种 情况 需要 调 优 编译 浆 值 ， 将 在 本 节 
最 后 讨论 。 
编译 是 基于 两 种 JVM 计数 器 的 : 方法 调用 计数 器 和 方法 中 的 循环 回 边 计 数 器 。 回 边 实际 
上 可 看 作 是 循环 完成 执行 的 次 数 ， 所 谓 循 环 完成 执行 ， 包 括 达 到 循环 自身 的 末尾 ， 也 包括 
执行 了 像 continue 这 样 的 分 支 语 句 。 

JVM 执行 某 个 Java 方法 时 ， 会 检查 该 方法 的 两 种 计数 器 总 数 ， 然 后 判定 该 方法 是 否 适 
合 编 译 。 如 果 适 合 ， 该 方法 就 进入 编译 队列 (队列 的 详细 信息 请 参见 4.5.1 节 的 “编译 线 
程 ”)。 这 种 编译 没有 正式 的 名 称 ， 通 常 叫 标准 编译 。 

但 是 ， 如 果 循 环 真 的 很 长 一 一 或 因 包 含 所 有 程序 逻辑 而 永远 不 退出 ， 又 该 如 何 ? 在 这 种 情 
况 下 ，JVM 不 等 方法 被 调用 就 会 编译 循环 。 所 以 循环 每 完成 一 轮 ， 回 边 计数 器 就 会 增加 并 
被 检测 。 如 果 循 环 的 回 边 计数 器 超过 国 值 ， 那 这 个 循环 (不 是 整个 方法 ) 就 可 以 被 编译 。 
这 种 编译 称 为 栈 上 替换 (On-Stack Replacement，OSR)。 由 于 仅仅 编译 循环 还 不 够 ，JVM 
必须 在 循环 进行 的 时 候 还 能 编译 循环 。 在 循环 代码 编译 结束 后 ，JVM 就 会 替换 还 在 栈 上 的 
代码 ， 循 环 的 下 一 次 迭代 就 会 执行 快 得 多 的 编译 代码 。 

标准 编译 由 -XX:CompileThreshold=N 标 志 触 发 。 使 用 client 编译 器 时 ，W 的 默认 值 是 1500， 
使 用 server 编译 器 时 为 10 000。 更 改 ConptteThreshotd 标志 的 值 ， 将 使 编译 器 提早 (或 和 
后 ) 编译 。 然 而 请 注意 ， 尽 管 有 一 个 标志 ， 但 这 个 标志 的 阔 值 等 于 回 边 计 数 器 加 上 方法 调 
用 计数 器 的 总 和 。 




































































更 改 OSR 编译 
更 改 OSR 编译 闽 值 的 情况 非常 军 见 。 事 实 上 ,虽然 OSR 编译 在 基准 测试 (特别 是 微 
基准 测试 ) 中 经 常 发 生 ， 但 在 实际 运行 时 并 不 经 常 出 现 。 


具体 来 说 ，OSR 编译 由 3 个 标志 触发 : 


OSR trigger = (CompileThreshold * 
((OnStackReplacePercentage - InterpreterProfiLePercentage)/100)) 


所 有 编译 器 中 的 -XX:InterpreterpProfiLePercentage=N 标志 的 默认 值 为 33。client 编译 
器 -XX:0nStackReplacePercentage=N 的 默认 值 为 933， 所 以 在 它 开 始 OSR 编译 前 ， 回 
边 计数 器 需要 达到 13 500。 在 server 编译 器 中 ， 由 于 0nStackReplacePercentage 默认 
值 为 140， 所 以 当 回 边 计数 器 达到 10 700 时 才 开 始 OSR 编译 。 注 意 ， 对 于 分 层 编 译 来 
说 ， 虽 然 概念 相同 ， 但 上 述 默 认 值 完全 取决 于 不 同 的 标志 。 详 情 请 看 4.5 节 “ 高 级 编 
译 器 调 优 ” 











有 一 段 时 期 ， 性 能 调 优 中 常常 会 建议 更 改 CompileThreshold 标志 。 事 实 上 ，Java 的 基准 测 
试 经 常 使 用 该 标志 (例如 ， 常 常 在 server 编译 器 执行 8000 次 迭代 之 后 使 用 它 ) 。 

我 们 已 经 了 解 ，client 编译 器 和 server 编译 器 的 基本 性 能 有 很 大 差异 ， 这 些 差异 很 大 程度 
上 取决 于 编译 方法 时 编译 器 所 能 获得 的 信息 。 降 低 编 译 国 值 ， 特 别 是 对 于 server 编译 器 来 
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说 ， 可 能 会 减少 编译 代码 的 优化 一 一 不 过 ， 应 用 测试 表明 ， 事 实 上 几乎 没有 什么 差别 ， 比 
如 8000 次 调用 和 10 000 次 调用 差别 其 微 。 

你 可 以 认为 ，JVM 供应 商 提 交 的 基准 测试 已 经 验证 过 上 述 调 优 ， 不 同 设置 的 基准 测试 间 并 
没有 什么 性 能 差异 。 他 们 使 用 较 低 的 设置 主要 基于 以 下 两 个 原因 : 

。 节约 一 点 应 用 热身 的 时 间 ， 

。 使 得 某 些 原本 可 能 不 会 被 server 编译 器 编译 的 方法 得 以 编译 。 


第 一 点 应 该 很 好 理解 ， 但 第 二 点 ， 为 什么 有 些 重要 方法 永远 都 不 会 被 编译 呢 ? 并 不 是 还 没 
达到 编译 国 值 ， 而 是 永远 都 达 不 到 。 这 是 因为 虽然 计数 器 随 着 方法 和 循环 的 执行 而 增加 ， 
但 它们 也 会 随时 间 而 减少 。 
每 种 计数 器 的 值 都 会 周期 性 减少 (特别 是 当 JVM 达到 安全 点 时 )。 实 际 上 ， 计 数 器 只 是 方 
法 或 循环 最 新 热度 的 度量 。 由 此 带 来 的 一 个 副作用 是 ， 执 行 不 太 频 繁 的 代码 可 能 永远 不 会 
编译 ， 即 便 是 永远 运行 的 程序 (相对 于 热 来 说 ， 有 时 称 这 些 方法 为 温 热 [lukewarm])。 这 就 
是 通过 减少 编译 国 值 来 进行 优化 的 一 种 情况 ， 它 也 是 分 层 编译 通常 比 单独 的 server 编译 器 
要 快 的 原因 之 一 。 下 市 将 展示 对 于 特定 方法 如 何 判 定 是 否 需 要 编译 。 如 果 应 用 分 析 信 息 显 
示 关 键 路 径 上 的 方法 没有 编译 ， 那 有 时 就 可 以 通过 降低 编译 堪 国 值 来 触发 这 些 方法 的 编译 。 
快速 小 结 
1， 当 方法 和 循环 执行 次 数 达 到 某 个 国 值 的 时 候 ， 就 会 发 生 编译 。 
2. 改变 国 值 会 导致 代码 提早 或 推 后 编译 。 
3. 由 于 计数 器 会 随 着 时 间 而 减少 ， 以 至 于 “ 温 热 ”的 方法 可 能 永远 都 达 不 
到 编译 的 准 值 (特别 是 对 server 编译 器 来 说 )。 






































4.4.3 ”检测 编译 过 程 


关于 中 级 优化 ， 最 后 要 讨论 的 内 容 并 不 是 优化 本 身 ， 这 些 调 优 措 施 并 不 会 改善 应 用 性 能 。 
更 准确 地 说 ， 它 们 就 是 可 以 让 人 看 到 编译 器 是 如 何 工作 的 JVM 标志 (和 其 他 工具 )。 其 中 
最 重要 的 是 -XX:+PrintCompilation (默认 为 false)。 
如 果 开 启 PrintCompilation， 每 次 编译 一 个 方法 (或 循环 ) 时 ，JVM 就 会 打印 一 行 被 编译 
的 内 容 信 息 。 输 出 的 信息 在 不 同 的 Java 发 布 版 之 间 会 有 所 不 同 ， 这 里 的 输出 是 Java 7 中 已 
经 标准 化 的 信息 。 
绝 大 多 数 编译 日 志 的 行 具有 以 下 格式 : 

timestamp compilation id attributes (tiered_ level) method name size deopt 
此 处 的 时 间 共 timestamp 是 编译 完成 的 时 间 (相对 于 JVM 开始 的 时 间 0)。 
compilation_id 是 内 部 的 任务 ID。 通 常 这 个 数字 只 是 简单 地 单调 增长 ， 不 过 在 使 用 server 
编译 器 时 (或 者 某 个 时 刻 编 译 器 的 线程 数 增加 时 )， 你 有 时 会 发 现 乱 序 的 compilation_id。 
这 表明 编译 线程 相对 于 其 他 线程 快 或 者 慢 了 ， 但 不 能 就 以 此 下 结论 ， 某 个 特定 的 编译 任 
务 因为 某 种 原因 变 得 特别 慢 了 ， 因 为 这 通常 只 是 线程 调度 的 缘故 (尽管 OSR 编译 比较 慢 ， 
经 常 出 现 乱 序 )。 
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attributes 是 一 组 5 个 字符 长 的 串 ， 表 示 代 码 编译 的 状态 。 如 果 给 定 的 编译 被 赋予 了 特定 


属性 ， 就 会 打印 下 面 列表 中 所 显示 的 字符 ， 否 由 








| 该 属性 就 打印 一 个 空格 。 因 此 ，5 字符 属 


性 串 可 以 同时 出 现 2 个 或 多 个 字符 。 不 同 的 属性 如 下 所 列 。 





。 %: 编译 为 OSR。 

: 方法 是 同步 的 。 

: 方法 有 异常 处 理 器 。 

: 阻塞 模式 时 发 生 的 编译 。 

: 为 封装 本 地 方法 所 发 生 的 编译 。 


@ 
DD TT :- wm 





其 中 前 3 个 可 以 自 解释 。 阻 塞 标志 在 当前 版 本 的 Java 中 默认 永远 都 不 会 打印 ， 表 明 编 译 不 
会 发 生 在 后 台 (详情 请 参见 4.5.1 六“ 编译 线程 ” )。 最 后 ，n 属性 表明 JVM 生成 了 一 些 编 











译 代码 以 便于 调用 本 地 方法 。 








如 有 果 程 序 没 有 使 用 分 层 编 译 的 方式 运行 ， 下 一 个 字段 tiered_level 就 是 空 的。 否则 就 会 是 
数字 ， 以 表明 所 完成 编译 的 级 别 (参见 4.7 市 “分 层 编译 级 别 ”)。 
下 面 一 个 是 被 编译 方法 (或 者 是 被 OSR 编译 的 包含 循环 的 方法 ) 的 名 字 ， 打 印 格 式 为 





ClassName: :method, 





接 下 来 是 编译 后 代码 的 大 小 〈 单 位 是 字 节 )。 这 是 Java 字 节 码 的 大 小 ， 不 是 被 编译 代码 的 
大 小 所 以 很 不 幸 ， 不 能 用 来 预 佑 代码 缓存 的 大 小 )。 
最 后 ， 在 某 些 情况 下 ， 编 译 日 志 行 的 结尾 会 有 一 条 信息 ， 表 明 发 生 了 茶 种 逆 优 化 ， 通 常 是 





“made not entrant” 或 “made zombie”。 详 情 参 见 


4.6 市 “ 逆 优 化 ”。 





要 信息 (此 处 5003 是 被 检测 进程 的 ID) : 
% jstat -compiler 5003 


206 0 0 1.97 
> 
证 该 假设 的 方法 。 


每 1 秒 (1000 毫秒 ) 输出 一 次 进程 ID 为 5003 


% jstat -printcompilation 5003 1000 
Compiled Size Type Method 





用 jstat 检测 编译 
编译 日 志 需 要 在 程序 启动 时 开启 -XX:+PrintCompilation。 如 果 程序 启动 时 没有 开启 这 
个 标志 ， 你 可 以 用 jstat 了 解 编译 器 内 部 的 部 分 工作 情况 。 


jstat 有 两 个 有 关 编 译 器 信息 的 标志 。-compiler 标志 提供 了 关于 多 少 方法 被 编译 的 概 


Compiled Failed Invalid Time FailedType FailedMethod 


0 


请 注意 ， 这 里 也 列 出 了 编译 失败 的 方法 个 数 和 最 近 编 译 失 败 的 方法 名 。 如 果 你 通过 性 
析 或 其 他 信息 推测 某 个 方法 比较 慢 是 因为 没有 编译 ， 那 这 行 命令 就 是 一 个 简单 验 


此 外 ， 你 可 以 用 -printcompilation 标志 获取 最 近 被 编译 的 方法 。jstat 借助 一 个 可 选 
参数 反复 执行 操作 ， 你 可 以 看 到 随时 间 变 化 有 哪些 方法 被 编译 了 。 在 本 例 中 ，jstat 


的 信 息 : 


207 64 1 java/lang/CharacterDataLatin1 toUpperCase 
208 5 1 java/math/BigDecimal$StringBuilderHelper getCharArray 
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编译 日 志 还 会 包括 类 似 下 面 这 行 信 息 : 
timestamp compile_id COMPILE SKIPPED: reason 


这 行 信息 (包括 文本 文字 COMPILE SKIPPED) 表示 编译 给 定 的 方法 有 错误 。 出 现 这 个 错 可 能 


有 以 下 两 种 原因 





代码 缓存 满 了 
需 用 ReservedCodeCache 标志 增 大 代码 缓存 的 大 小 。 
编译 的 同时 加 载 类 





再 次 编译 。 
在 所 有 这 些 情况 (除了 代码 缓存 被 填 满 ) 中 ， 编 译 都 可 以 再 次 尝试 。 如 果 不 能 ， 说 明代 码 
编译 出 了 错 。 虽 然 通常 是 编译 器 的 缺陷 ， 但 常用 的 解决 方法 是 将 代码 重 构 得 更 简单 ， 以 使 
编译 器 能 够 处 理 。 


以 下 是 股票 的 servlet Web 应 用 开启 PrintCompilation 时 的 几 行 输出 : 


28015 
28179 
28226 
28244 


29929 


106805 


输出 包括 仅 有 的 一 些 与 股票 相关 的 已 编译 方法 。 几 个 有 趣 的 地 方 值得 注意 : 首 个 与 股票 相 
关 的 方法 在 应 用 服务 器 启动 28 秒 之 后 才 被 编译 ， 在 它 之 前 有 849 个 被 编译 的 方法 。 在 这 
个 例子 中 ， 这 些 都 是 应 用 服务 器 的 方法 (从 输出 日 志 中 可 以 过 滤 出 来 )。 应 用 服务 器 启动 
用 了 2 秒 ， 剩 下 的 没 开始 编译 之 前 的 26 秒 基本 上 是 空间 ， 因 为 应 用 服务 器 在 等 待 请 求 。 
输出 中 剩余 的 几 行 显示 了 一 些 重 要 特性 。process() 是 同步 方法 ， 这 和 你 在 代码 列表 中 
所 见 到 的 一 样 。 内 部 类 的 编译 和 其 他 类 一 样 ， 在 日 志 中 遵循 Java 的 命名 规则 : outer- 
cLassnameSinner-cLassname。 不 出 所 料 ，processRequest() 有 异常 处 理 器 。 


最 后 ， 





850 
905 

25 
935 


939 
1568 





o 


编译 类 的 时 候 会 发 生 修 改 。JVM 之 后 会 再 次 编译 ， 你 可 以 在 之 后 的 日 志 中 看 到 方法 被 























net.sdo.StockPrice::getClosingPrice (5 bytes) 
S net.sdo.StockPriceHistoryImpl::process (248 bytes) 
% net.sdo.StockPriceHistoryImpl::<init> @ 48 (156 bytes) 
net.sdo.MockStockPriceEntityManagerFactorys$\ 
MockStockPriceEntityManager: :find (507 bytes) 
net.sdo.StockPriceHistoryImpl::<init> (156 bytes) 
! net.sdo.StockServlet::processRequest (197 bytes) 
































回顾 一 下 StockPriceHistoryImpl 的 构造 函数 ， 它 包含 了 一 个 大 循环 : 


public StockPpriceHistoryImpl(String s, Date startDate, Date endDate) { 
EntityManager em = emf.createEntityManager(); 
Date curDate = new Date(startDate.getTime()); 
symbol = s; 
while (!curDate.after(endDate)) { 


St 


ockPrice sp = em.find(StockPrice.class, new StockPricepK(s, curDate)); 


if (sp != null) { 


eo 


if (firstDate == null) { 

firstDate = (Date) curDate.clone(); 
} 
prices.put((Date) curDate.clone(), sp); 
LastDate = (Date) curDate.clone(); 
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curDate.setTime(curDate.getTime() + msPerDay); 
} 
} 


这 个 循环 的 执行 次 数 比 构造 函数 本 身 多 ， 所 以 是 OSR 编译 的 目标 。 请 注意 ， 编 译 构造 函 
数 花费 了 一 点 时 间 ， 开 始 时 它 的 编译 ID 为 25， 但 直到 编译 其 他 方法 又 过 了 900 多 个 编译 
ID 之 后 才 再 次 出 现 该 方法 。( 这 个 例子 中 的 OSR 行 信 息 容 易 被 误 读 成 23% ， 你 会 好 奇 其 
他 75% 是 什么 。 请 注意 ， 这 里 的 数字 只 是 编译 DD， 而 % 只 表示 OSR 编译 。) 这 是 典型 的 
OSR 编译 ， 栈 上 替换 比较 困难 ， 期 间 还 会 持续 进行 其 他 编译 。 


快速 小 结 
1. 观察 代码 如 何 被 编译 的 最 好 方法 是 开启 PrintCompilation。 
2.PrintCompilation 开启 后 所 输出 的 信息 可 用 来 确认 编译 是 否 和 预期 一 样 。 


4.5 高 级 编译 器 调 优 
本 节 将 补充 一 些 编译 如 何 工作 的 细节 ， 在 此 过 程 中 探索 一 些 可 以 影响 编译 的 调 优 方法 。 不 
过 ， 虽 然 可 以 更 改 这 些 值 ， 但 真 的 不 建议 这 么 做 ， 因 为 这 些 调 优 标志 ss 


助 JVM 工程 诊断 JVM 行为 的 。 如 果 你 对 编译 器 的 工作 原理 非常 好 奇 ， 那 你 会 对 本 节 
趣 ， 如 果 不 是 ， 可 直接 跳 过 本 节 内 容 。 


4.5.1 编译 线程 


4.4.2 季 “ 编 译 闵 值 ” 曾 提 到 ， 当 方法 (或 循环 ) 适合 编译 时 ， 就 会 进入 到 编译 队列 。 队 列 
则 由 一 个 或 多 个 后 台 线 程 处 理 。 这 是 件 好 事 ， 意 味 着 编译 过 程 是 异步 的 ， 这 使 得 即便 是 代 
码 正在 编译 的 时 候 ， 程 序 也 能 持续 执行 。 如 有 果 是 用 标准 编译 所 编译 的 方法 ， 那 下 次 调用 该 
方法 时 就 会 执行 编译 后 的 方法 ， 如 果 是 用 OSR 编译 的 循环 ， 那 下 次 循环 迭代 时 就 会 执行 
编译 后 的 代码 。 

编译 队列 并 不 严格 遵守 先进 先 出 的 原则 : 调用 计数 次 数 多 的 方法 有 更 高 的 优先 级 。 所 以 ， 


即便 在 程序 开始 执行 并 有 大 量 代码 需要 编译 时 ， 这 样 的 优先 顺序 仍然 有 助 于 确保 最 重要 的 
代码 优先 编译 。( 这 是 为 何 Printcompilation 输出 中 的 ID 为 乱 序 的 另 一 个 原因 。) 


当 使 用 client 编译 器 时 ，JVM 会 开启 一 个 编译 线程 ， 使 用 server 编译 器 时 ， 则 会 开局 两 个 
这 样 的 线程 。 当 启用 分 层 编译 时 ，JVM 默认 开局 多 个 client 和 server 线程 ， 线 程 数 依据 一 
个 略 复杂 的 等 式 而 定 ， 包 括 目标 平台 CPU 数 取 双 对 数 之 后 的 数值 。 表 4-7 中 显示 的 值 即 为 
计算 出 的 数值 。 


表 4-7: 分 层 编译 中 编译 器 C1 和 C2 的 默认 线程 数 


CPU 数量 C1 的 线程 数 C2 的 线程 数 
1 1 1 


































































































2 1 1 
4 1 2 
8 1 2 
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( 续 ) 


CPU 数量 C1 的 线程 数 C2 的 线程 数 








16 2 6 
32 3 7 
64 4 8 
128 4 10 





编译 器 的 线程 数 (3 种 编译 器 都 是 如 此 ) 可 通过 -XX:CICompilerCount=N 标 志 来 设置 (默认 
值 参见 前 表 )。 这 是 JVM 处 理 队 列 的 线程 总 数 ， 对 分 层 编译 来 说 ， 其 中 三 分 之 一 〈 至 少 
个 ) 将 用 来 处 理 client 编译 器 队列 ， 其 余 的 线程 〈 至 少 一 个 ) 用 来 处 理 server 编译 器 队列 。 
你 何 时 需要 考虑 调整 该 参数 值 ?如 果 程 序 和 运行 在 单 CPU 系统 上 ， 那 么 只 有 设置 成 单个 编 
译 器 线程 才 可 以 得 到 些 好 处 : 对 可 用 CPU 受 限 的 系统 来 说 ， 在 许多 情况 下 只 有 减少 争 抢 
资源 的 线程 数 才 有 利于 性 能 提升 。 但 是 ， 这 种 好 处 也 仅 限于 初始 的 热身 阶段 ， 在 此 之 后 ， 
已 编译 过 的 方法 将 不 会 再 引起 CPU 竞争 。 当 股票 配 比 处 理应 用 运行 在 单 CPU 机 器 上 ， 
并 且 编 译 器 线程 数 限制 为 一 时 ， 初 始 计算 会 快 大 约 10% (因为 不 用 经 常 争 抢 CPU)。 运 
行 的 轮 次 越 多 ， 初 始 时 的 整体 收益 就 越 小 ， 直 到 所 有 热点 方法 都 被 编译 之 后 ， 这 种 收益 
就 消失 了 。 
使 用 分 层 编 译 时 ， 线 程 数 很 容易 超过 系统 限制 ， 特 别 是 有 多 个 JVM 同时 运行 的 时 候 (每 
个 都 开启 很 多 编译 线程 ) 。 在 这 种 情况 下 ， 减 少 线程 数 有 助 于 提升 整体 的 吞吐 量 (尽管 代 
价 可 能 是 热身 期 会 持续 得 更 长 )。 
与 此 类 似 ， 如 果 有 额外 可 用 的 CPU 周期 ， 理 论 上 程序 将 会 受益 至 少 在 热身 期 间 
此 时 编译 器 线程 数 会 增加 。 在 实际 工作 中 ， 这 样 的 好 处 很 难 获 得 。 进 一 步 来 说 ， 如 果 有 很 
多 可 用 的 CPU， 那么 在 应 用 的 整个 执行 过 程 中 ， 你 都 可 以 去 尝试 那些 能 充分 发 挥 可 用 CPU 
周期 的 方法 〈 而 不 仅仅 在 开始 时 加 快 编译 ) ， 这 样 会 好 得 多 。 
另外 一 个 编译 线程 的 设 定 参 数 是 -XX:+BackgroundCompilation 标志 ， 默 认 值 为 true。 这 意 
味 着 ， 和 参数 所 描述 的 一 样 ， 编 译 队列 的 处 理 是 异步 执行 的 。 但 这 个 参数 也 可 以 设置 为 
false， 在 这 种 情况 下 ， 当 一 个 方法 适合 编译 ， 执 行 该 方法 的 代码 将 一 直 等 到 它 确 实 被 编译 
之 后 才 执行 〈 而 不 是 继续 在 解释 器 中 执行 )。 用 -Xbatch 可 以 禁止 后 台 编 译 。 

快速 小 结 

1. 放置 在 编译 队列 中 的 方法 的 编译 会 被 异步 执行 。 

2. 队列 并 不 是 严格 按照 先后 顺序 的 ， 队列 中 的 热点 方法 会 在 其 他 方法 之 前 

编译 。 这 是 编译 输出 日 志 中 的 ID 为 乱 序 的 另 一 个 原因 。 


4.5.2 ”内 联 
编译 器 所 做 的 最 重要 的 优化 是 方法 内 联 。 遵 循 面 向 对 象 设计 的 良好 代码 通常 都 会 包括 一 些 
需要 通过 getter (也 可 能 包含 setter) 访问 的 属性 : 


public class Point { 
private int x, y; 






























































[uy 
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public void getX() { return x; } 
public void setX(Cint i) {x = i;} 


} 


此 类 方法 调用 的 开销 很 大 ， 特 别 是 相对 于 方法 的 代码 量 而 言 。 事 实 上 ， 在 早期 的 Java 中 ， 
考虑 到 所 有 此 类 调用 对 性 能 的 影响 ， 性 能 调 优 小 贴 士 常 常会 信 皮 旦 旦 地 反对 此 类 封装 。 季 运 
的 是 ， 现 在 的 JVM 通常 都 会 用 内 联 代 码 的 方式 执行 这 些 方法 。 因 此 ， 你 可 以 这 样 写 代码 : 


Point p = getPoint(); 
p.setX(p.getX() * 2); 


而 编译 后 的 代码 本 质 上 执行 的 是 ; 

Point p = getPoint(); 

p.XxX=p.xyx 2; 
内 联 默认 是 开局 的 。 可 通过 -XX: -InLine 关闭 ， 然 而 由 于 它 对 性 能 的 影响 巨大 ， 事 实 上 你 
永远 不 会 这 么 做 例如， 关闭 内 联 的 话 ， 股 票 配 比 测试 的 性 能 会 减少 50%)。 由 于 内 联 非 
常 重要 ， 并 且 还 因为 有 许多 其 他 控制 标志 ， 所 以 通常 都 会 建议 对 JVM 内 联 进行 调 优 。 
不 幸 的 是 ， 基 本 上 没 法 看 到 JVM 是 如 何 内 联 代码 的 。( 如 果 你 从 源 代码 编译 JYVM， 那 可 以 
用 -XxX:+PrintInlining 生成 带 调 试 信息 的 版 本 。 这 个 参数 会 提供 所 有 关于 编译 器 如 何 进 行 
内 联 决 策 的 信息 。) 最 好 的 方法 是 查看 代码 的 分 析 信 息 ， 如 果 在 分 析 信 息 的 顶部 附近 有 简 
单 的 方法 ， 并 且 看 起 来 这 些 方法 应 该 内 联 ， 可 用 内 联 标志 做 些 试验 。 


方法 是 否 内 联 取决 于 它 有 多 热 以 及 它 的 大 小 。JVM 依据 内 部 计算 来 判定 方法 是 否 是 热点 
( 壁 如 ， 调 用 很 频繁 ) ， 是 否 是 热点 并 不 直接 与 任何 调 优 参数 相关 。 如 果 方 法 因 调 用 频繁 而 
可 以 内 联 ， 那 具有 在 它 的 字 节 码 小 于 325 字 节 时 (或 -XX:MaxFreqInlinesize=N 所 设 定 的 任 
意 值 ) 才 会 内 联 。 否 则 ， 只 有 方法 很 小 时 ， 即 小 于 35 字 节 (或 -XX:MaxInLineSize=W 所 设 
定 的 任意 值 ) 时 才 会 内 联 。 


有 时 你 会 看 到 增加 MaxIntinesize 的 值 以 便 内 联 更 多 方法 的 建议 。 两 者 之 间 常 被 忽略 的 是 ， 
MaxInLineSize 超过 35 意味 着 第 一 次 调用 方法 时 就 会 被 内 联 。 然 而 ， 方 法 只 有 经 常 被 调用 
时 一 一 在 这 种 情况 下 它 的 性 能 会 受 更 大 影响 一 一 最 终 才 值得 内 联 (假定 它 的 大 小 小 于 325 
字 市 )。 否 则 ，MaxInlinesize 调 优 的 最 终结 果 就 是 减少 了 热身 测试 所 需 的 时 间 ， 但 不 太 可 
能 对 长 期 运行 的 程序 产生 重大 影响 。 












































快速 小 结 
1. 内 联 是 编译 器 所 能 做 的 最 有 利 的 优化 ， 特 别 是 对 属性 封装 良好 的 面向 对 
象 的 代码 来 说 。 





2， 几乎 用 不 着 调节 内 联 参数 ， 且 提倡 这 样 做 的 建议 往往 忽略 了 常规 内 联 和 
频繁 调用 内 联 之 间 的 关系 。 当 考察 内 联 效 应 时 ， 确 保 考 虑 这 两 种 情况 。 


4.5.3 ”逃逸 分 析 


如 果 开 启 逃 逸 分 析 (-XX:+DoEscapeAnalysis， 默 认为 true) ，server 编译 器 将 会 执行 一 些 非 
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常 激 进 的 优化 措施 。 比 如 ， 考 虑 以 下 计算 阶乘 的 类 : 


public class Factorial { 
private BigInteger factorial; 
private int n; 
public Factorial(int n) { 
this.n = n; 
} 
public synchronized BigInteger getFactorial() { 
if (factorial == null) 
factorial = ...; 
return factorial; 
} 
} 


若 想 在 数组 中 保存 前 100 个 阶乘 值 ， 使 用 以 下 代码 : 


ArrayList<BigInteger> list = new ArrayList<BigInteger>(); 
for (int i = 0; i < 100; i++) { 
Factorial factorial = new Factorial(i); 
list.add(factorial.getFactorial()); 





} 


factorial 对 象 只 在 循环 中 引用 ; 没有 任何 其 他 代码 可 以 访问 该 对 象 。 因 此 ，JVM 会 宣 不 

狂 移 地 对 这 个 对 象 进 行 一 系列 优化 。 

当 调 用 getFactorial() 时 ， 没 必要 获得 同步 锁 。 

。 没 必 要 在 内 存 中 保存 n， 可 以 在 寄存 器 中 保存 该 值 。 同 样 ，factorialt 也 可 以 保存 在 寄 
存 器 中 。 

。 事实 上， 根本 就 不 需要 分 配 实 际 的 factorial 对 象 ， 可 以 只 追踪 这 个 对 象 的 个 别 字段 。 


此 类 优化 非常 复杂 : 虽然 这 个 例子 非常 简单 ， 但 此 类 优化 可 能 会 伴随 更 复杂 的 代码 。 由 于 
所 用 的 代码 不 同 ， 并 不 是 所 有 的 优化 都 有 必要 使 用 。 但 逃逸 分 析 可 以 决定 哪些 优化 是 可 能 
的 ， 并 决定 编译 后 的 代码 中 哪些 是 必要 的 改变 。 

逃逸 分 析 默 认 开 启 。 极 少数 情况 下 ， 它 会 出 错 ， 在 此 类 情况 下 关闭 它 会 变 得 更 快 或 更 稳 
定 。 如 果 你 发 现 了 这 种 情况 ， 最 好 的 应 对 行为 就 是 简化 相关 代码 : 代码 越 简单 越 好 。( 不 
过 如 果 是 bug， 则 应 该 发 送 报告 。) 



































快速 小 结 
1.， 逃逸 分 析 是 编译 器 能 做 得 最 复杂 的 优化 。 此 类 优化 常常 会 导致 微 基准 测 
试 失败 。 


2， 逃 逸 分 析 常 常会 给 不 正确 的 同步 代码 引入 “bug 。 


4.6 逆 优 化 


PrintCompilation 标志 输出 的 讨论 中 曾 提 到 两 种 代码 逆 优 化 的 情况 。 逆 优化 意味 着 编译 器 
不 得 不 “撤销 ”之 前 的 某 些 编译 ， 结 果 是 应 用 的 性 能 降低 一 一 至 少 是 直到 编译 器 重新 编译 
相应 代码 为 止 。 
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有 两 种 逆 优 化 的 情形 : 代码 状态 分 别 为 “made not entrant” (代码 被 丢弃 ) 和 “made 
Zombie” (产生 僵尸 代码 ) 时 。 


4.6.1 代码 被 丢弃 


有 两 种 原因 导致 代码 被 丢弃 。 可 能 是 和 类 与 接口 的 工作 方式 有 关 ， 也 可 能 与 分 层 编 译 的 实 
现 细节 有 关 。 


先 考 虑 第 一 种 情况 。 回 想 一 下 stock 应 用 的 接口 StockPriceHistory。 示 例 代 码 中 有 
两 种 接口 实现 : 基本 实现 (StockPriceHistoryImpl) 和 每 个 操作 带 有 日 志 的 实现 
(StockPriceHistoryLogger )。servlet 代码 依据 请 求 URL 上 的 Log 参数 来 选择 实现 ; 
StockPriceHistory sph; 
String log = request.getParameter("log"); 


if (log != nuLL && log.equals("true")) { 
sph = new StockPriceHistoryLogger(...); 























else { 
sph = new StockPriceHistoryImpl(...); 


了 
// 然后 JSP 调 用 : 
sph.getHighprice(); 
sph.getStdDev(); 
拉稀 等 
如 果 向 http://localhost:8080/StockServlet 发 起 一 组 请 求 调用 (没有 tog 参数 ) ， 那 么 编译 器 会 
到 sph 的 实际 类 型 为 StockPriceHistoryImpl。 然 后 它 将 内 联 代码 ， 并 据 此 执行 其 他 优化 。 
之 后 再 向 http://localhost:8080/StockServlet?log=true 发 起 一 次 调用 。 现 在 编译 器 依据 sph 类 
型 所 做 的 假定 就 不 成 立 了 ， 之 前 的 优化 也 失效 了 。 这 就 产生 了 逆 优 化 陷阱 Cs 
trap)， 之 前 的 优化 也 被 废弃 了 。 如 果 有 更 多 这 样 带 有 Log=true 的 请 求 调 用 ，JVM 就 会 
快 终止 这 部 分 代码 编译 ， 而 开始 新 的 编译 。 


该 场景 的 编译 日 志 包 括 了 以 下 信息 











841113 25 % net.sdo.StockPpriceHistoryImpl::<init> @ -2 (156 bytes) 
made not entrant 

841113 937 5s net.sdo.StockPriceHistoryImpl::process (248 bytes) 
made not entrant 

1322722 25 % net.sdo.StockPpriceHistoryImpl::<init> @ -2 (156 bytes) 
made zombie 

1322722 937 5s net.sdo.StockPriceHistoryImpl::process (248 bytes) 


made zombie 


请 注意 ，OSR 编译 过 的 构造 函数 和 标准 编译 过 的 方法 都 被 标记 成 made not entrant， 过 了 
一 会 ， 它 们 又 被 标记 成 made zombie。 

族 优 化 听 起 来 不 太 好 ， 至 少 作 为 性 能 优化 的 术语 是 这 样 ， 但 并 非 总 是 如 此 。 本 章 的 第 一 个 
例子 中 用 了 股票 的 servlet 应 用 ， 只 测 了 触发 StockPriceHistoryImpl 的 URL。 测 试 热身 时 
间 300 秒 ， 使 用 分 层 编译 ， 达 到 24.4 OPS。 


假定 上 述 测 试 之 后 立刻 用 StockPriceHistoryLogger 测试 一 一 也 就 是 我 刚刚 列举 的 那个 逆 
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优化 例子 。PrintCompilation 的 完整 输出 显示 ， 请 求 带 日 志 的 StockPriceHistory 实现 时 ， 
StockPriceHistoryImpl 类 的 所 有 方法 都 被 逆 优 化 了 。 不 过 ， 逆 优化 之 后 ， 如 果 再 次 请 求 
StockPriceHistoryImpl， 这 些 代码 又 会 重新 编译 (原先 的 假设 会 发 生 少许 差异 )， 最 终 我 
们 仍 将 看 到 大 约 24.4 OPS (在 新 一 轮 热身 之 后 )。 

当然 这 是 最 好 的 情况 。 如 果 混 合 这 些 调 用 ， 使 得 编译 器 无 法 假定 采用 哪 种 代码 路 径 ， 会 发 
生 什 么 ? 因为 有 额外 的 日 志 ， 所 以 通过 servlet 访问 带 日 志 的 路 径 大 约 需要 24.1 OPS。 如 果 
混合 操作 ， 大 约 为 24.3 OPS， 与 期 望 的 平均 值 相近 。 在 批 处 理 程序 中 也 能 观察 到 类 似 的 结 
果 。 所 以 ， 除 了 进入 陷阱 的 短暂 时 间 ， 逆 优化 对 其 他 方面 没有 产生 什么 重大 影响 。 

第 二 种 导致 代码 被 丢弃 的 原因 是 分 层 编译 。 在 分 层 编译 中 ， 代 码 先 由 client 编译 器 编译 ， 然 
后 由 server 编译 器 编译 (实际 上 要 比 这 复杂 一 些 ， 下 一 节 会 进一步 讨论 )。 当 server 编译 器 
编译 好 代码 之 后 ，JVM 必须 替换 client 编译 器 所 编译 的 代码 。 它 会 将 老 代 码 标记 为 废弃 ， 
也 用 同样 的 办 法 替换 新 编译 (和 更 有 效 ) 的 代码 。 因 此 ， 当 程序 使 用 分 层 编 译 时 ， 编 译 日 
志 就 会 显示 许多 被 丢弃 的 方法 。 不 要 慌张 ， 这 种 “ 逆 优 化 ”事实 上 使 代码 变 得 更 快 了 。 

可 以 通过 观察 编译 日 志 中 的 层次 级 别 信息 来 检测 逆 优 化 : 











































































































40915 84% 3 net.sdo.StockPriceHistoryImpl::<init> @ 48 (156 bytes) 
40923 3697 3 net.sdo.StockPriceHistoryImpl::<init> (156 bytes) 
41418 87% 4 net.sdo.StockPriceHistoryImpl::<init> @ 48 (156 bytes) 
41434 84% 3 net.sdo.StockPriceHistoryImpl::<init> @ -2 (156 bytes) 
made not entrant 
41458 3749 4 net.sdo.StockPriceHistoryImpl::<init> (156 bytes) 
41469 3697 3 net.sdo.StockPriceHistoryImpl::<init> (156 bytes) 
made not entrant 
42772 3697 3 net.sdo.StockPriceHistoryImpl::<init> (156 bytes) 
made zombie 
42861 84% 3 net.sdo.StockPriceHistoryImpl::<init> @ -2 (156 bytes) 


made zombie 


这 里 ， 构 造 方 法 首先 是 级 别 3 的 OSR 编译 ， 然 后 在 级 别 3 得 到 完整 编译 。 很 快 ，OSR 代 
码 变 得 适合 级 别 4 的 编译 ， 所 以 JVM 在 级 别 4 上 编译 代码 ， 而 原先 级 别 3 的 代码 被 丢弃 。 
相同 的 过 程 在 标准 编译 中 也 会 发 生 ， 而 级 别 3 的 编译 代码 最 后 会 变 成 僵尸 代码 。 


4.6.2 ” 逆 优 化 僵尸 代码 


编译 日 志 显 示 产 生 了 僵尸 代码 ， 意 思 是 说 JVM 已 经 回收 了 之 前 被 丢弃 的 代码 。 在 上 面 的 
例子 中 ， 测 试 过 StockPriceHistoryLogger 之 后 ，StockPriceHistoryImpl 类 的 编译 代码 就 
被 丢弃 了 。 但 是 StockPriceHistoryImpl 类 的 对 象 仍然 存在 。 最 终 ， 所 有 这 些 对 象 都 会 被 
GC 回收 。 全 部 回收 之 后 ， 编 译 器 就 会 注意 到 ， 这 个 类 现在 适合 标记 为 僵尸 代码 了 。 

从 性 能 角度 来 看 ， 这 是 好 事 。 回 想 一 下 ， 编 译 代码 保存 在 有 固定 大 小 的 代码 缓存 中 。 如 果 
发 现 僵尸 方法 ， 这 意味 着 这 些 有 问题 的 代码 可 以 从 代码 缓存 中 移 除 ， 腾 出 空间 给 其 他 将 被 
编译 的 代码 (或 者 限制 JVM 之 后 需要 分 配 的 内 存量 )。 

可 能 产生 的 不 足 是 ， 如 果 代 码 被 僵尸 化 以 后 被 再 次 加 载 并 且 频 繁 使 用 ，JVM 就 需要 重新 编 
译 和 重新 优化 代码 。 而 且 情 形 就 像 上 面 所 描述 的 那样 ， 测 试 一 会 没 日 志 ， 一 会 有 日 志 ， 然 
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后 又 没有 日 志 。 这 种 情况 下 ， 性 能 并 没有 受到 明显 的 影响 。 一 般 来 说 ， 像 僵尸 代码 重 编译 
这 样 小 的 操作 对 大 多 数 应 用 都 不 会 有 显著 的 影响 。 


快速 小 结 

1.， 逆 优化 使 得 编译 器 可 以 回 到 之 前 版 本 的 编译 代码 。 

2. 先前 的 优化 不 再 有 效 时 (例如 ， 所 涉及 的 对 象 类 型 发 生 了 更 改 )， 才 会 发 
生 代码 逆 优 化 。 

3 代码 逆 优 化 时 ， 会 对 性 能 产生 一 些小 而 短暂 的 影响 ， 不 过 新 编译 的 代码 
会 尽快 地 再 次 热身 。 

4. 分 层 编 译 时 ， 如 果 代码 之 前 由 client 编译 器 编译 而 现在 由 server 编译 器 优 
化 ， 就 会 发 生 逆 优化 。 


二 人 口 
4.7 “分 层 编译 级 别 
程序 使 用 分 层 编译 时 ， 编 译 日 志 中 会 输出 代码 所 编译 的 分 层级 别 。 上 一 节 的 示例 中 ， 代 码 
最 多 编译 到 级 别 4， 甚 至 为 了 简化 讨论 ， 到 目前 为 止 ， 我 已 经 说 过 只 有 两 种 编译 器 (加 上 
解释 器 ) 。 
因为 client 编译 器 有 3 种 级 别 ， 所 以 总 共有 5 种 执行 级 别 。 因 此 ， 编 译 级 别 有 : 


。 0: 解释 代码 

。 1: 简单 C1 编译 代码 

。 2: 受 限 的 C1 编译 代码 
。 3: 完全 C1 编译 代码 

。 4: C2 编译 代码 


典型 的 编译 日 志 可 以 显示 ， 多 数 方法 第 一 次 编译 的 级 别 是 3， 即 完全 C1 编译 。( 当 然 ， 所 
有 方法 都 从 级 别 0 开始 。) 如 果 方 法 运行 得 足够 频繁 ， 它 就 会 编译 成 级 别 4 (级 别 3 的 代码 
就 会 被 丢弃 ) 。 最 常见 的 情况 是 : client 编译 器 从 获取 了 代码 如 何 使 用 的 信息 进行 优化 时 才 
开始 编译 。 

如 果 server 编译 器 队列 满 了 ， 就 会 从 server 队列 中 取出 方法 ， 以 级 别 2 进行 编译 ， 在 这 个 
级 别 上 ，C1 编译 器 使 用 方法 调用 计数 器 和 回 边 计数 器 (但 不 需要 性 能 分 析 的 反馈 信息 )。 
这 使 得 方法 编译 得 更 快 ， 而 方法 也 将 在 C1 编译 器 收集 分 析 信 息 之 后 被 编译 为 级 别 3， 最 
终 当 server 编译 器 队列 不 太 忙 的 时 候 被 编译 为 级 别 4。 

另 一 方面 ， 如 果 client 编译 器 全 忙 ， 原 本 排 程 在 级 别 3 编译 的 方法 就 既 可 以 等 待 级 别 3 编 
译 ， 也 适合 进行 级 别 4 的 编译 。 在 这 种 情况 下 ， 方法 编译 会 很 快 转 到 级 别 2， 然 后 由 级 别 
2 转 到 级 别 4。 


那些 不 太 重 要 的 方法 可 以 从 级 别 2 或 级 别 3 开始 编译 ， 但 随后 会 因为 它们 的 重要 性 没 那 么 
高 而 转 为 级 别 1。 另 外 ， 如 果 server 编译 器 出 于 某 些 原因 无 法 编译 代码 ， 也 会 转 为 级 别 1。 


当然 ， 代 码 在 逆 编 译 时 会 转 为 级 别 0。 
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有 些 标志 可 以 控制 某 些 级 别 转换 行为 ， 但 调 优 能 够 得 到 很 乐观 的 结果 。 当 方法 按期 望 的 
顺序 ， 即 级 别 0 一 级 别 3 一 级 别 4 编译 时 ， 性 能 可 以 达到 最 优 。 如 有 果 方 法 经 常 被 编译 为 
级 别 2， 并 且 还 额外 有 可 用 的 CPU 周期 ， 那 就 可 以 考虑 增加 编译 器 的 线程 数 ， 从 而 减少 
server 编译 器 队列 的 长 度 。 如 果 没 有 额外 可 用 的 CPU 周期 ， 那 你 唯一 能 做 的 就 是 尽力 减 小 
应 用 的 大 小 。 



































快速 小 结 
1. 分 层 编 译 可 以 在 两 种 编译 器 和 5 种 级 别 之 间 进 行 。 
2. 不 建议 人 为 更 改 级 别 ， 本 节 仅 仅 是 辅助 解释 编译 日 志 的 输出 。 








4.8 小结 


本 节 提 供 了 大 量 关 于 即时 编译 如 何 工 作 的 细节 。 从 调 优 角度 看 ， 简 单 的 选择 就 是 对 所 有 应 
用 都 使 用 server 编译 器 和 分 层 编译 ， 这 将 解决 90% 的 与 编译 器 相关 的 性 能 问题 。 只 要 确保 
代码 缓存 足够 大 ， 编 译 器 就 能 提供 尽善尽美 的 性 能 。 














关于 编译 器 调 优 的 最 后 一 句 话 
如 果 你 有 Java 性 能 调 优 方面 的 经 验 ， 你 或 许 会 觉得 惊奇 ， 因 为 整 章 关于 编译 的 讨论 中 
部 没有 提 及 final 关键 字 。final 总 被 认为 是 影响 性 能 的 重要 因素 ， 因 为 大 家 相信 在 
进行 内 联 和 其 他 优化 时 ，finat 可 以 使 JIT 编译 器 作出 更 好 的 选择 。 


这 种 想法 在 落伍 的 过 去 或 许 有 一 些 价 值 ， 但 已 经 很 多 年 很 多 年 不 是 这 样 了 (即便 曾经 
是 )。 而 其 实 它 是 流传 黄 广 的 谣言 。 准 确 地 说 ， 只 要 有 必要 时 ， 你 就 应 该 使 用 final: 
比如 你 不 打算 改变 的 不 可 变 对 象 或 原生 值 ， 内 部 类 引用 的 外 部 参数 等 等 。 但 无 论 有 没 
有 final 关键 字 ， 都 不 会 影响 应 用 的 性 能 。 











本 章 也 包括 了 大 量 关于 编译 器 如 何 运 作 的 背景 知识 。 这 么 做 的 原因 是 ， 你 可 以 理解 第 1 章 
关于 小 方法 和 小 代码 的 一 般 性 建议 ， 以 及 第 2 章 所 描述 的 微 基准 测试 对 编译 器 的 影响 。 特 
别 是 ， 还 涵盖 了 以 下 知识 。 

(1) 不 用 担心 小 方法 一 一 特别 是 getter 和 setter， 因 为 它们 很 容易 内 联 。 如 果 你 觉得 某 个 方 
法 的 负载 过 大 ， 那 你 可 能 只 是 在 理论 上 是 正确 的 (通过 移 除 内 联 给 性 能 造成 的 巨大 影响 
可 以 展示 这 点 )。 而 实际 上 并 不 是 这 样 ， 因 为 编译 器 会 修复 这 些 问 题 。 

(2) 需要 编译 的 代码 在 编译 队列 中 。 队 列 中 代码 越 多 ， 程 序 达 到 最 佳 性 能 的 时 间 越 久 。 

(3) 虽然 代码 缓存 的 大 小 可 以 (也 应 该 ) 调整 ， 但 它 仍然 是 有 限 的 资源 。 

(4) 代码 越 简单 ， 优 化 越 多 。 分 析 反 馈 和 逃逸 分 析 可 以 使 代码 更 快 ， 但 复杂 的 循环 结构 和 大 
方法 限制 了 它 的 有 效 性 。 

最 后 ， 如 果 你 在 分 析 代 码 时 ， 很 惊奇 地 发 现 一 些 方法 出 现在 了 分 析 信 息 的 顶部 

期 望 不 应 该 出 现在 那里 

以 你 所 写 的 代码 逻辑 处 理 。 















































你 原本 
你 可 以 使 用 本 章 的 内 容 审视 编译 器 正在 做 什么 ， 以 确保 它 正 在 
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第 5 章 


垃圾 收集 入 门 





这 一 章 我 们 会 一 起 探究 JVM 垃圾 收集 的 基础 知识 。 很 多 时 候 我 们 没有 机 会 重 写 代 码 ， 又 
面临 需要 提高 Java 应 用 性 能 的 压力 ， 这 种 情况 下 对 垃圾 收集 器 的 调 优 就 变 得 至 关 重 要 。 


现代 JVM 的 类 型 繁多 ， 最 主流 的 四 个 垃圾 收集 器 分 别 是 : Serial 收集 器 (常用 于 单 CPU 
环境 ) 、Throughput (或 者 Parallel) 收集 器 、Concurrent 收集 器 (CMS) 和 G1 收集 器 。 它 
们 的 性 能 特征 巡 异 ， 下 一 章 将 围绕 每 种 垃圾 收 集 器 的 特质 进行 深入 讨论 。 虽 然 存在 差异 ， 
不 过 它们 也 有 不 少 共 性 ， 本 章 会 针对 这 些 共性 概述 垃圾 收集 器 是 如 何 工作 的 。 


5.1 垃圾 收集 概述 


对 程序 员 而 言 ，Java 最 诱 人 的 特性 之 一 是 不 需要 显 式 地 管理 对 象 的 生命 周期 : 我 们 可 以 在 
需要 时 创建 对 象 ， 对 象 不 再 被 使 用 时 ， 会 由 JVM 在 后 台 自 动 进行 回收 。 但 是 ， 如 果 你 像 
我 一 样 ， 花 费 大 量 的 时 间 来 优化 Java 程序 的 内 存 使 用 ， 这 和 套 机 制 看 起 来 可 能 更 像 个 缺点 ， 
而 非 其 优点 (我 在 垃圾 收集 调 优 上 耗费 的 时 间 似乎 也 证 明了 这 一 点 )。 当 然 ， 这 其 实 是 一 
把 双 刃 剑 。 不 过 ， 在 过 去 15 年 里 ， 我 在 Java 内 存 问 题 处 理 上 花费 的 时 间 ， 远 少 于 过 去 10 
年 里 〈 使 用 其 他 语言 时 ) 查找 并 修复 因 指 针 荐 挂 和 空 指针 引起 的 问题 所 消耗 的 时 间 。 


简单 来 说 ， 垃 圾 收集 由 两 步 构成 : 查找 不 再 使 用 的 对 象 ， 以 及 释放 这 些 对 象 所 管理 的 内 
存 。JVM 从 查找 不 再 使 用 的 对 象 〈 垃 圾 对 象 ) 入 手 。 有 时 ， 这 也 被 称 为 查找 不 再 有 任何 对 
象 引用 的 对 象 〈 暗 指 采 用 “引用 计数 ”的 方式 统计 对 象 引 用 )。 然 而 ， 这 种 靠 引用 计数 的 
方式 不 太 靠 谱 : 假设 有 一 个 对 象 链接 列表 ， 列 表 中 的 每 一 个 对 象 (除了 头 节点 ) 都 指向 列 
表 中 的 另 一 个 对 象 ， 但 是 ， 如 果 没 有 任何 一 个 引用 指向 列表 头 ， 这 个 列表 就 没 人 使 用 ， 可 
以 被 垃圾 回收 器 回收 。 如 果 这 是 一 个 循环 列表 ( 即 列表 的 尾 元 素 反 过 来 又 指向 了 头 元 素 )， 
那么 列表 中 的 每 一 个 元 素 都 包含 一 个 引用 ， 即 使 这 个 列表 内 没有 任何 一 个 对 象 实际 被 使 
用 ， 因 为 没有 任何 一 个 对 象 指向 这 个 列表 。 
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所 以 引用 是 无 法 通过 计数 的 方式 动态 跟踪 的 ，JVM 必须 定期 地 扫描 堆 来 查找 不 
回收 这 些 对 象 所 持 有 的 内 存 ， 把 它们 分 配给 需要 内 存 的 其 





象 。 一 旦 发 现 垃圾 对 象 ，JVM 会 




















了 使 用 的 对 


他 对 象 。 然 而 ， 简 单 地 记录 空闲 内 存 也 无 法 保证 将 来 有 足够 的 可 用 内 存 ， 有 些 时 候 ， 我 们 


还 必须 进行 内 存 整理 来 防止 内 存 碎片 








o 


假设 以 下 场景 ， 一 个 程序 需要 分 配 大 小 为 1000 字 节 的 数组 ， 紧 接着 又 分 配 一 个 大 小 为 24 








5-1 中 的 第 一 行 所 示 : 堆 












































字 节 的 数组 ， 并 在 一 个 循环 中 持续 进行 这 样 的 分 配 。 最 终 程 序 会 耗 尽 整个 堆 ， 结 果 如 图 


空间 被 占 满 ， 分 配 的 数组 间隔 地 分 布 于 整个 堆 内 。 











分 配 之 后 


释放 对 象 之 后 





之 后 


国 分 配 1000 字 节 





国 分 配 24 字 节 


加 本 硬 


口 空闲 空间 








图 5-1; 垃圾 收集 过 程 中 理想 化 的 GC 堆 














堆 内 存 用 尽 会 触发 JVM 回收 不 再 使 用 的 数组 空间 。 











被 使 用 ， 而 大 小 为 1000 字 市 的 数组 还 继续 使 用 ， 这 就 形成 了 
堆 内 部 有 足够 的 空闲 空间 ， 却 找 不 到 任何 一 个 大 于 24 字 市 的 连续 空间 ， 除 非 JVM 移动 所 


有 大 小 为 1000 字 布 的 数组 ， 让 它们 连续 存储 ， 


宁 二 位 


供 其 他 的 内 存 分 配 使 用 (如 图 5-1 的 
识 入 到 这 些 具体 实现 
到 不 再 使 用 的 对 象 、 














不 同 的 收集 器 采用 了 不 同 的 方法 ， 这 也 是 不 同 垃圾 收集 器 表现 出 不 同性 能 特征 的 原因 。 


如 有 果 垃 圾 收集 进行 时 ， 没 有 任何 应 用 程序 线程 在 运行 ， 那 么 完成 这 些 操 作 将 是 一 们 
多 ,通常 Java 程序 都 启动 了 大 量 的 线程 ， 垃 圾 收集 器 自 


杂 得 


快 的 事情 。 然 而 实际 情况 要 复 








以 乎 太 过 于 琐 届 ， 但 垃圾 收集 的 ; 
回收 它们 使 用 的 内 存 、 对 堆 的 内 存 布局 进行 压缩 整理 。 完 成 这 上 
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腿 设 所 有 大 小 为 24 字 节 的 数组 都 不 
的 场景 。 


图 5-1 中 第 二 行 
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虽然 

















条 的 空间 整合 成 一 块 更 大 的 连续 空间 ， 


生 能 就 是 由 这 些 基本 操作 所 决定 的 : 找 


操作 时 


F 轻 松 愉 





身 往 往 也 是 多 线程 的 。 接 下 来 的 讨论 中 ， 我 们 从 逻辑 上 将 线程 分 成 了 两 组 ， 分 别 是 应 用 程 


序 线程 和 处 理 垃圾 收集 的 线程 。 垃 圾 收集 器 

















回收 对 象 ， 或 者 在 内 存 中 移动 对 象 时 ， 必 须 确 


保 应 用 程序 线程 不 再 继续 使 用 这 些 对 象 。 这 一 点 在 收集 器 移动 对 象 时 尤其 重要 : 在 操作 过 
线程 都 不 应 再 访问 该 对 象 。 








程 中 ， 对 象 的 内 存 地 址 会 发 生变 化 ， 
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此 这 个 过 程 中 任何 应 月 
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所 有 应 用 线程 都 停止 运行 所 产生 的 停顿 被 称 为 时 空 停顿 (stop-the-world) 。 通 常 这 些 停顿 对 
应 用 的 性 能 影响 最 大 ， 调 优 垃圾 收集 时 ， 尽 量 减 少 这 种 停顿 是 最 为 关键 的 考量 因素 。 


5.1.1 “分 代 垃圾 收集 器 


虽然 实现 的 细节 千差万别 ， 但 所 有 的 垃圾 收集 器 都 遵循 了 同一 个 方式 ， 即 根据 情况 将 
堆 划 分 成 不 同 的 代 (Generation)。 这 些 代 被 称 为 “老年 代 ”(Old Generation 或 Tenured 
Generation) 和 “新 生 代 ”(Young Generation)。 新 生 代 又 被 进一步 地 划分 为 不 同 的 区 段 ， 
分 别称 为 Eden 空间 和 Survivor 空间 (不 过 Eden 有 时 会 被 错误 地 用 于 指 代 整 个 新 生 代 )。 


采用 分 代 机 制 的 原因 是 很 多 对 象 的 生存 时 间 非 常 得 。 璧 如 下 面 这 个 例子 ， 这 是 一 个 计算 股 
价 的 循环 ， 它 将 股价 与 股票 均 价 的 差 值 进行 乘 方 运算 ， 然 后 将 结果 加 和 (作为 标准 偏差 计 
算 的 一 部 分 ) 。 


sum = new BigDecimal(0); 

for (StockPrice sp : prices.vaLues()) { 
BigDecimal diff = sp.getClosingPrice().subtract(averagePrice); 
diff = diff.multiply(diff); 
sum = sum.add(diff); 














} 


BigDecimal 同 许多 Java 类 一 样 是 不 可 变 对 象 : 该 对 象 代表 的 是 一 个 不 能 修改 的 数字 。 运 
算 使 用 这 个 对 象 时 ， 会 创建 一 个 新 的 对 象 ( 通 常 ， 前 一 个 对 象 及 其 值 会 被 丢弃 )。 这 个 简 
单 的 循环 处 理 一 年 的 股票 数据 (大约 250 个 循环 ) 时 ， 为 了 存储 循环 的 中 间 值 ， 会 创建 
750 个 BigDecimal 对 象 ， 只 是 在 这 一 个 循环 里 。 这 些 对 象 在 循环 的 下 一 个 周期 开始 时 会 被 
丢弃 。 在 add() 以 及 其 他 方法 内 ，JDK 的 库 方法 会 创建 更 多 类 似 BigDecimal (以 及 其 他 的 
类 ) 的 中 间 对 象 。 最 终 ， 在 一 小 段 代 码 中 大 量 的 对 象 被 快速 地 创建 和 丢弃 。 

Java 中 ， 这 种 操作 是 非常 普遍 的 ， 所 以 垃圾 收集 器 设计 时 就 特别 考虑 要 处 理 大 量 〈《 有 时候 是 
大 多 数 ) 的 临时 对 象 。 这 也 是 分 代 设 计 的 初衷 忆 一。 新 生 代 是 堆 的 一 部 分 ， 对 象 首 先 在 新 生 
代 中 分 配 。 新 生 代 填 请 时 ， 垃 圾 收集 器 会 暂停 所 有 的 应 用 线程 ， 回 收 新 生 代 空间 。 不 再 使 用 
的 对 象 会 被 回收 ， 仍 然 在 使 用 的 对 象 会 被 移动 到 其 他 地 方 。 这 种 操作 被 称 为 Minor GC。 
采用 这 种 设计 有 两 个 性 能 上 的 优势 。 其 一 ， 由 于 新 生 代 仅 是 堆 的 一 部 分 ， 与 处 理 整 个 堆 相 
比 ， 处 理 新 生 代 的 速度 更 快 。 而 这 意味 着 应 用 线程 停顿 的 时 间 会 更 短 。 你 可 能 也 看 到 了 这 
其 中 的 权衡 ， 这 意味 着 应 用 程序 线程 会 更 频繁 地 发 生 停顿 ， 因 为 JVM 不 再 等 到 整个 堆 都 
填 满 才 进 行 垃圾 收集 ， 本 章 后 续 部 分 会 针对 其 利 环 进行 深入 的 讨论 。 然 而 ， 就 目前 而 言 ， 
更 短 的 停顿 显然 能 带 来 更 多 的 优势 ， 即 使 发 生 的 频率 更 高 。 

第 二 个 优势 源 于 新 生 代 中 对 象 分 配 的 方式 。 对 象 分 配 于 Eden 空间 (占据 了 新 生 代 空 间 的 
绝 大 多 数 )。 垃 圾 收集 时 ， 新 生 代 空间 被 清空 ，Eden 空间 中 的 对 象 要 么 被 移 走 ， 要 么 被 回 
收 ， 所 有 的 存活 对 象 要 么 被 移动 到 男 一 个 Survivor 空间 ， 要 么 被 移动 到 老年 代 。 由 于 所 有 
的 对 象 都 被 移 走 ， 相 当 于 新 生 代 空间 在 垃圾 收集 时 自动 地 进行 了 一 次 压缩 整理 。 


所 有 的 垃圾 收集 算法 在 对 新 生 代 进 行 垃圾 回收 时 都 存在 “时 空 停顿 ”现象 。 


对 象 不 断 地 被 移动 到 老年 代 ， 最 终老 年 代 也 会 被 填 满 ,JVM 需要 找 出 老年 代 中 不 再 使 用 
的 对 象 ， 并 对 它们 进行 回收 。 而 这 便 是 垃圾 收集 算法 差异 最 大 的 地 方 。 简 单 的 垃圾 收集 算 
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法 直接 停 掉 所 有 的 应 用 线程 ， 找 出 不 再 使 用 的 对 象 ， 对 其 进行 回收 ， 接 着 对 堆 空 间 进行 整 
。 这 个 过 程 被 称 为 Full GC， 通 常 导 致 应 用 程序 线程 长 时 间 的 停顿 。 


另 一 方面 ， 通 过 更 复杂 的 计算 ， 我 们 还 有 可 能 在 应 用 线程 运行 的 同时 找 出 不 再 使 用 的 对 
象 ; CMS 和 G1 收集 器 就 是 通过 这 种 方式 进行 垃圾 收集 的 。 由 于 它们 不 需要 停止 应 用 线程 
就 能 找 出 不 再 用 的 对 象 ，CMS 和 G1 收集 器 被 称 为 Concurrent 垃圾 收集 器 。 同 时 ， 由 于 它 
们 将 停止 应 用 程序 的 可 能 降 到 了 最 小 ， 也 被 称 为 低 停顿 (Low-Pause) 收集 器 (有 了 时 也 称 
为 无 停顿 收集 器 ， 虽 然 这 个 叫 法 相当 不 确切 ) 。Concurrent 收集 器 也 使 用 各 种 不 同 的 方法 对 
老年 代 空 间 进行 压缩 。 


使 用 CMS 或 G1 收集 器 时 ， 应 用 程序 经 历 的 停顿 会 更 少 (也 更 短 )。 其 代价 是 应 用 程序 会 

消耗 更 多 的 CPU。CMS 和 G1 收集 也 可 能 遭遇 长 时 间 的 Full GC 停顿 (尽量 避免 发 生 那 样 

的 停顿 是 这 些 调 优 算法 要 考虑 的 重要 方面 )。 

评估 垃圾 收集 器 时 ， 想 想 你 需要 达到 的 整体 性 能 目标 。 每 一 个 决定 都 需要 权衡 取舍 。 如 

应 用 对 单个 请 求 的 响应 时 间 有 要 求 ( 壁 如 Java 企业 版 服务 器 ) ， 你 应 该 考虑 下 面 这 些 因 素 。 

。 单个 请 求 会 受 停顿 时 间 的 影响 一 一 不 过 甚 受 Full GC 长 时 间 停 顿 的 影响 更 大 。 如 果 目 标 
是 要 尽 可 能 地 缩短 响应 时 间 ， 那 么 选择 使 用 Concurrent 收集 器 更 合适 。 

。 如 果 平 均 响 应 时 间 比 最 大 响应 时 间 更 重要 (譬如 90% 的 响应 时 间 ) ， 采 用 Throughput 收 
集 器 通常 就 能 满足 要 求 。 

。 使 用 Concurrent 收集 器 来 避免 长 的 停顿 时 间 也 有 其 代价 ， 这 会 消耗 额外 的 CPU。 

类 似 地 ， 为 批量 应 用 选择 垃圾 收集 器 可 以 遵循 下 面 的 原则 。 


。 如 果 CPU 足够 强劲 ， 使 用 Concurrent 收集 器 避免 发 生 Full GC 停顿 可 以 让 任务 运行 得 
更 快 。 
。 如 果 CPU 有 限 , 那么 Concurrent 收集 器 额外 的 CPU 消耗 会 让 批量 任务 消耗 更 多 的 时 间 。 
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快速 小 结 

1. 所 有 的 GC 算法 都 将 堆 划分 成 了 老年 代 和 新 生 代 。 

2. 所 有 的 GC 算法 在 清理 新 生 代 对 象 时 ， 都 使 用 了 “时 空 停顿 ”(stop-the- 
world) 方式 的 垃圾 收集 方法 ， 通 常 这 是 一 个 能 较 快 完成 的 操作 。 





5.1.2 GC 算法 

JVM 提供 了 以 下 4 种 不 同 的 垃圾 收集 算法 。 

1. Serial 垃 圾 收集 器 

Serial 垃圾 收集 器 是 四 种 垃圾 收集 器 中 最 简单 的 一 种 。 如 果 应 用 运行 在 Client 型 虚拟 机 
(Windows 平台 上 的 32 位 JVM 或 者 是 运行 在 单 处 理 器 机 器 上 的 JVM) 上 ， 这 也 是 默认 的 
垃圾 收集 器 。 

Serial 收集 器 使 用 单线 程 清理 堆 的 内 容 。 使 用 Serial 收集 器 ， 无 论 是 进行 Minor GC 还 是 
Full GC， 清 理 堆 空间 时 ， 所 有 的 应 用 线程 都 会 被 暂停 。 进 行 Full GC 时 ， 它 还 会 对 老年 代 
空间 的 对 象 进行 压缩 整理 。 通 过 -XX:+UseSerialGC 标志 可 以 启用 Serial 收集 器 (大 多 数 情 
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况 下 ， 如 果 可 以 使 用 这 个 标志 ， 默 认 就 会 开启 )。 注 意 ， 跟 大 多 数 的 JVM 标志 不 同 ， 关 闭 
Serial 收集 器 不 能 简单 地 将 加 号 符 变 成 减 号 符 ( 辟 如， 使 用 -XX:-UseSerialGC)。 在 Serial 
收集 器 作为 默认 收集 器 的 系统 上 ， 如 果 需 要 关闭 Serial 收集 器 ， 可 以 通过 指定 另 一 种 垃圾 
收集 器 来 实现 。 

2. Throughput 垃 圾 收集 器 


Throughput 收集 器 是 Server 级 虚拟 机 (多 CPU 的 Unix 机 器 以 及 任何 64 位 虚拟 机 ) 的 默 
认 收 集 器 。 


Throughput 收集 器 使 用 多 线程 回收 新 生 代 空间 ，Minor GC 的 速度 比 使 用 Serial 收集 器 快 
得 多 。 处 理 老 年 代 时 Throughput 收集 器 也 能 使 用 多 线程 方式 。 这 已 经 是 JDK 7u4 及 之 后 
的 版 本 的 默认 行为 ， 对 于 之 前 老 版 本 的 JDK 7 虚拟 机 ， 通 过 -XX:+UseParaLtLeLOLdGC 标 
志 可 以 开启 这 个 功能 。 由 于 Throughput 收集 器 使 用 多 线程 ，Throughput 收集 器 也 常常 
被 称 为 Parallel 收集 器 。Throughput 收集 器 在 Minor GC 和 Full GC 时 会 暂停 所 有 的 应 
用 线程 ， 同 时 在 Full GC 过 程 中 会 对 老年 代 空 间 进 行 压缩 整理 。 由 于 在 大 多 数 适 用 的 场 
景 ， 它 已 经 是 默认 的 收集 器 ， 所 以 你 基本 上 不 需要 显 式 地 启用 它 。 如 果 需 要 ， 可 以 使 用 
-XX:+UseParallelGC、-XX:+UseParallel0ldGC 标志 启用 Throughput 收集 器 。 


3. CMS 收集 器 

CMS 收集 器 设计 的 初衷 是 为 了 消除 Throughput 收集 器 和 Serial 收集 器 Full GC 周期 中 
的 长 时 间 停 顿 。CMES 收集 器 在 Minor GC 时 会 暂停 所 有 的 应 用 线程 ， 并 以 多 线程 的 方式 
进行 垃圾 回收 。 然 而 ， 这 其 中 最 显著 的 不 同 是 ，CMS 不 再 使 用 Throughput 的 收集 算法 
(-XX:+UseParaLLeLGC) ， 改 用 新 的 算法 来 收集 新 生 代 对 象 (使 用 -XX:+UseParNewGC 标志 ) 。 


CMS 收集 器 在 Full GC 时 不 再 暂停 应 用 线程 ， 而 是 使 用 若干 个 后 台 线 程 定期 地 对 老年 代 空 
间 进 行 扫描 ， 及 时 回收 其 中 不 再 使 用 的 对 象 。 这 种 算法 帮助 CMS 成 为 一 个 低 延 迟 的 收集 
器 : 应 用 线程 只 在 Minor GC 以 及 后 台 线 程 扫 描 老 年 代 时 发 生 极其 短暂 的 停顿 。 应 用 程序 
线程 停顿 的 总 时 长 与 使 用 Throughput 收集 器 比 起 来 短 得 多 。 


这 里 额外 付出 的 代价 是 更 高 的 CPU 使 用 : 必须 有 足够 的 CPU 资源 用 于 运行 后 台 的 垃圾 收 
集 线 程 ， 在 应 用 程序 线程 运行 的 同时 扫描 堆 的 使 用 情况 。 除 此 之 外 ， 后 台 线 程 不 再 进行 任 
何 压 缩 整 理 的 工作 ， 这 意味 着 堆 会 逐渐 变 得 碎片 化 。 如 果 CMS 的 后 台 线 程 无 法 获得 完成 
他 们 任务 所 需 的 CPU 资源 ， 或 者 如 果 堆 变 得 过 度 碎 片 化 以 至 于 无 法 找到 连续 空间 分 配对 
象 ，CMS 就 晓 化 到 Serial 收集 器 的 行为 : 暂停 所 有 应 用 线程 ， 使 用 单线 程 回 收 、 整 理 老 年 
代 空 间 。 这 之 后 又 恢复 到 并 发 运行 ， 再 次 启动 后 台 线 程 (直到 下 一 次 堆 变 得 过 度 碎片 化 )。 
通过 -XX:+UseConcMarkSweepGC、-XX:+UseParNewGC 标志 (默认 情况 下 ， 这 两 个 标志 都 是 禁 
用 的 ) 可 以 启用 CMS 垃圾 收集 器 。 


4. G1 垃 圾 收集 器 

G1 垃圾 收集 器 (或 者 垃圾 优先 收集 器 ) 的 设计 初 囊 是 为 了 尽量 缩短 处 理 超 大 堆 (大 于 4 
GB) 时 产生 的 停顿 。G1 收集 算法 将 堆 划 分 为 若干 个 区 域 (Region) ， 不 过 它 依 旧 属 于 分 代 
收集 器 。 这 些 区 域 中 的 一 部 分 包含 新 生 代 ， 新 生 代 的 垃圾 收集 仍然 采用 暂停 所 有 应 用 线程 
的 方式 ， 将 存活 对 象 移动 到 老年 代 或 者 Survivor 空间 。 同 其 他 的 收集 算法 一 样 ， 这 些 操作 
也 利用 多 线程 的 方式 完成 。 
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G1 收集 器 属于 Concurrent 收集 器 老年 代 的 垃圾 收集 工作 由 后 台 线 程 完成 ， 大 多 数 的 工 
作 不 需要 暂停 应 用 线程 。 由 于 老年 代 被 划分 到 不 同 的 区 域 ，G1 收集 器 通过 将 对 象 从 一 个 
区 域 复制 到 另 一 个 区 域 ， 完 成 对 象 的 清理 工作 ， 这 也 意味 着 在 正常 的 处 理 过 程 中 ，G1 收 
集 器 实现 了 堆 的 压缩 整理 (至少 是 部 分 的 整理 )。 因 此 ， 使 用 G1 收集 器 的 堆 不 大 容易 发 生 
碎片 化 一 一 虽然 这 种 问题 无 法 避免 。 
同 CMS 收集 器 一 样 ， 避 免 Full GC 的 代价 是 消耗 额外 的 CPU 周期 : 负责 垃圾 收集 的 多 个 
后 台 线 程 必须 能 在 应 用 线程 运行 的 同时 获得 足够 的 CPU 运行 周期 。 通 过 标志 -XX:+UseG1GC 
(上 默认 值 是 关闭 的 ) 可 以 启动 G1 垃圾 收集 器 。 


























触发 及 禁用 显 式 的 垃圾 收集 
通常 情况 下 垃圾 收集 是 由 JVM 在 需要 的 时 候 触 发 : 新 生 代 用 尽 时 会 触发 Minor GC， 
老年 代用 尽 时 会 触发 Full GC， 或 者 堆 空间 即将 填 满 时 会 触发 Concurrent 垃圾 收集 (如 
果 情 况 需要 )。 


Java 也 提供 了 一 种 机 制 让 应 用 程序 强制 进行 GC: 这 就 是 System.gc() 方法 。 通 常情 况 
下 ， 试 图 通过 调用 这 个 方法 显 式 触发 GC 都 不 是 个 好 主意 。 调 用 这 个 方法 会 触发 Full 
GC (即使 JVM 使 用 CMS 或 者 G1 垃圾 收集 器 ) ， 应 用 程序 线程 会 因此 而 停顿 相当 长 
的 一 段 时间 。 同 时 ， 调 用 这 个 方法 也 不 会 让 应 用 程序 更 高 效 ， 它 会 让 GC 更 早 地 开始 ， 
但 那 实际 只 是 将 性 能 的 影响 往 后 推迟 而 已 。 


任何 原则 都 有 例外 ， 尤 其 是 在 做 性 能 监控 或 者 基准 测试 时 。 运 行 少量 的 代码 进行 基准 
测试 时 ， 为 了 更 快 地 预 热 JVM， 在 测量 周期 之 前 强制 进行 一 次 GC 还 是 有 意义 的 。 类 
似 的 情况 还 包括 在 进行 堆 分 析 时 ， 通 常 在 获取 堆 转 储 之 前 ， 强 制 进行 一 次 Full GC 是 
一 个 不 错 的 主意 。 虽 然 大 多 数 抓 取 堆 转 储 的 方法 都 能 进行 Full GC， 也 存在 其 他 的 方法 
可 以 强制 进行 Full GC: 你 可 以 通过 执行 jcmd < 进程 号 > GC.run， 或 者 使 用 jconsole 
连接 到 JVM 在 内 存 面板 上 单 击 “进行 GC” 按 钮 。 

另 一 个 例外 是 RMI， 作 为 它 分 布 式 垃圾 收集 器 的 一 部 分 ， 每 隔 一 小 时 它 会 调用 
System.gc() 一 次 。 这 里 的 调用 时 间 可 以 通过 系统 属性 中 的 -Dsun.rmi.dgc.server. 
gcInterval=N 和 -Dsun.rmi.dgc.cli ent.gcInterval=N 进行 修 改 。N 值 的 单位 以 毫秒 
记 ， 在 Java7 (该 值 与 之 前 的 版 本 亦 不 相同 ) 中 的 默认 值 为 3600 000 〈 即 一 个 小 时 ) 。 
如 果 你 运行 的 程序 调用 的 第 三 方 代码 中 错误 地 调用 了 System.gc() 方法 ， 可 以 通过 JVM 
参数 -XX:+DisableExplicitGC 显 式 地 禁止 这 种 类 型 的 GC; 默认 情况 下 该 标志 是 关闭 的 。 











快速 小 结 
1. 这 四 种 垃圾 收集 算法 分 别 采 用 了 的 不 同 的 方法 来 缓解 GC 对 应 用 程序 的 
影响 。 
2，Serial 收集 器 常用 于 仅 有 单 CPU 可 用 以 及 当 其 他 程序 会 干扰 GC 的 情况 
(通常 是 默认 值 ) 。 
， Throughput 收集 器 在 其 他 的 虚拟 机 上 是 默认 值 ， 它 能 最 大 化 应 用 程序 的 
总 吞吐 量 ， 但 是 有 些 操作 可 能 遭遇 较 长 的 停顿 。 
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4. CMS 收集 器 能 够 在 应 用 线程 运行 的 同时 并 行 地 对 老年 代 的 垃圾 进行 收 
集 。 如 果 CPU 的 计算 能 力 足 以 支撑 后 台 垃 圾 收集 线程 的 运行 ， 该 算法 能 
避免 应 用 程序 发 生 Full GC。 

5. G1 收集 器 也 能 在 应 用 线程 运行 的 同时 并 发 地 对 老年 代 的 垃圾 进行 收集 ， 
在 某 种 程度 上 能 够 减少 发 生 Full GC 的 风险 。G1 的 设计 理念 使 得 它 比 
CMS 更 不 容易 遭遇 Full GC。 









































5.1.3 选择 GC 算 法 
GC 算法 的 选择 一 方面 取决 于 应 用 程序 的 特征 ， 另 一 方面 取决 于 应 用 的 性 能 目标 。 


Serial 收集 器 最 适用 于 应 用 程序 的 内 存 使 用 少 于 100 MB 的 场景 。 这 种 情况 下 应 用 程序 只 需 
要 很 小 的 堆 ， 无 论 是 Throughput 收集 器 的 并 行 收集 ， 还 是 CMS 收集 器 或 G1 收集 器 的 后 
台 收 集 都 发 挥 不 了 太 大 的 作用 。 


这 个 Sizing 准则 也 限制 了 Serial 收集 器 的 使 用 范畴 。 大 多 数 的 程序 需要 在 Throughput 和 
Concurrent 收集 器 之 间 做 出 抉择 ， 而 选择 的 依据 大 多 数 情 况 下 是 由 应 用 程序 的 性 能 目标 所 
决定 的 。 


关于 这 个 主题 在 第 二 章 有 过 概述 : 不 同 应 用 在 耗 时 、 吞 吐 量 、 或 者 平均 (或 者 总 量 90% 
的 ) 响应 时 间 上 的 要 求 锭 异 。 

1. GC 算法 及 批量 任务 

对 批量 任务 而 言 ，Throughput 收集 器 所 引入 的 停顿 ， 尤 其 是 Full GC 的 停顿 是 主要 的 顾虑 。 
每 个 任务 的 执行 都 会 为 总 的 执行 时 间 增 加 一 部 分 的 延迟 时 间 (elapse time)。 如 果 每 次 Full 
GC 耗 时 0.5 秒 ， 程 序 5 分 钟 的 运行 时 间 内 要 进行 20 个 这 样 的 周期 ， 那 么 性 能 的 损耗 就 高 
达 3.4%: 如 果 没 有 这 些 停顿 ， 程 序 可 以 在 290 秒 而 不 是 300 秒 内 完成 运行 。 


如 果 有 额外 的 CPU 处 理 能 力 〈 这 很 可 能 是 个 问题 ) ， 那 么 使 用 Concurrent 收集 器 将 极 大 
地 提升 应 用 程序 的 性 能 。 这 里 的 关键 在 于 我 们 能 否 提供 足够 的 CPU 给 Concurrent 收集 器 
的 线程 进行 后 台 的 处 理工 作 。 举 个 简单 的 例子 : 一 个 单 CPU 的 机 器 上 ， 单 线程 的 应 用 程 
序 已 经 消耗 了 100% 的 CPU 资源 。 该 应 用 程序 使 用 Throughput 收集 器 运行 时 ，GC 间 上 歇 
性 地 发 生 ， 导 致 应 用 程序 线程 出 现 停顿 。 同 样 的 程序 ， 如 果 切 换 到 Concurrent 收集 器 ， 
操作 系统 一 会 在 CPU 上 运行 应 用 程序 线程 ， 一 会 儿 运 行 GC 的 后 台 线 程 。 最 终 的 结果 是 
一 样 的 : 操作 系统 运行 其 他 线程 时 ， 应 用 程序 线程 依然 会 发 生 停顿 (不 过 有 可 能 是 更 短 
时 间 的 停顿 ) 。 

这 个 原则 同样 适用 于 通用 情况 ， 即 多 个 应 用 程序 线程 、 多 个 后 台 GC 线程 运行 于 多 CPU 的 
系统 上 。 如 果 操 作 系统 无 法 在 同时 运行 所 有 应 用 程序 线程 和 GC 后 台 线 程 ， 那 么 对 CPU 的 
竞争 就 会 反映 到 应 用 程序 线程 的 停顿 上 。 

表 5-1 展示 了 这 个 取舍 是 如 何 工作 的 。 计 算 股 票数 据 的 批量 应 用 已 经 运行 于 特定 的 模式 ， 
它们 会 将 结果 集 保持 在 内 存 中 数 分 钟 (目的 是 填 满 整个 堆 ) ， 测试 分 别 使 用 了 CMS 和 
Throughput 垃圾 收集 算法 。 
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表 5-1: 采用 不 同 的 GC 算 法 进行 批量 处 理 的 时 间 消 耗 








垃圾 收集 算法 4 核 CPU ( CPU 利用 率 ) 1 核 CPU ( CPU 利用 率 ) 
CMS 78.09 (30.7% ) 120.0 (100% ) 
Throughput 81.00 (27.7%) 111.6 (100%) 








表 中 的 时 间 即 是 完成 这 个 测试 所 花费 的 秒 数 ， 机 器 的 CPU 使 用 情况 标记 在 括号 中 。 存 在 4 
个 可 用 CPU 时 ，CMS 收集 器 运行 批量 操作 比 Throughput 收集 器 要 快 大 约 3 秒 钟 ， 但 是 请 
留意 每 个 用 例 中 CPU 的 使 用 情况 。4 个 CPU 中 有 一 个 应 用 线程 一 直 处 于 运行 状态 ， 因 此 
应 用 线程 使 用 了 4 个 CPU 的 25%。 


表 中 其 他 额外 的 CPU 消耗 都 源 于 GC 线程 。 使 用 CMS 收集 器 时 ， 后 台 线 程 间 区 性 地 消耗 
了 一 个 CPU， 或 者 该 机 器 上 25% 的 CPU 资源 。 这 里 后 台 线 程 是 间 和 葡 性 地 运行 的 ， 结 果 表 
明 ， 它 消耗 了 大 约 5% 的 CPU 时 间 ， 所 以 平均 CPU 使 用 率 为 30%。 


类 似 地 ，Throughput 收集 器 运行 了 4 个 GC 线程 。GC 周期 中 ， 这 些 线程 占用 了 100% 的 可 
用 CPU 资源 ， 在 整个 测试 中 ,使 用 了 大 约 28% 的 CPU 周期 。 在 Minor GC 时 ，CMS 也 运 
行 了 4 个 GC 线程 ,占用 了 100% 的 可 用 CPU。 


只 有 一 个 CPU 可 用 时 ，CPU 将 一 直 处 于 忙碌 状态 ， 要 么 是 运行 应 用 程序 线程 ， 要么 是 运 
行 GC 线程 。 这 种 情况 下 ，CMS 额外 的 后 台 线 程 就 变 成 了 一 种 负担 ， 最 终 Throughput 收 
集 器 提前 9 秒 钟 完成 了 运行 任务 。 




















平均 CPU 利用 率 和 GC 
测试 中 如 果 只 看 平均 CPU 利用 率 可 能 会 错过 GC 周期 中 的 一 些 有 趣 的 场景 。Throughput 
收集 器 运行 时 会 (默认) 100% 占用 机 器 上 所 有 的 CPU， 因 此 测试 中 CPU 使 用 情况 更 精 
准 的 表述 应 该 如 图 5-2 所 示 。 
大 多 数 情 况 下 ， 如 果 只 有 应 用 程序 线程 运行 ， 大 概 会 消耗 总 CPU 处 理 能 力 的 25%。 一 
旦 垃圾 收集 开始 ，CPU 就 被 100% 占用 。 因 此 ， 即 使 测试 中 的 平均 值 如 图 中 水 平 虚 线 所 
示 ， 实 际 的 CPU 使 用 情况 更 贴近 于 图 中 的 锯齿 形 模式 。 





CPU 使 用 率 : Throughput 收 集 器 
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5-2: CPU 使 用 率 的 实际 值 与 平均 值 (使 用 Throughput 收集 器 ) 
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使 用 Concurrent 收集 器 时 ， 后 台 线 程 会 与 应 用 线程 并 行 运行 ， 表 现 出 的 效果 也 不 大 一 
样 。 这 种 情况 下 CPU 的 使 用 情况 看 起 来 如 图 5-3 所 示 。 





CPU 使 用 率 : Concurrent 收 集 器 








全 

30 秒 均值 
[a i 
2 全 局 平均 什 
至 

进 














5-3: CPU 使 用 率 的 实际 值 与 平均 值 (使 用 CMS 收集 器 ) 


初始 时 应 用 线程 使 用 了 25% 的 CPU 处 理 能 力 。 到 某 个 时 刻 线程 产生 足够 的 坛 圾 触发 
了 CMS 收集 器 的 后 台 线 程 ; 垃圾 回收 的 后 台 线 程 占用 了 另 一 蜂 CPU， 将 CPU 的 使 用 
率 提 高 到 50%。CMS 线程 的 垃圾 回收 工作 完成 后 ，CPU 的 使 用 率 又 回落 到 25% ， 如 
此 周 而 往复 。 注 意 ， 这 个 图 中 没有 出 现 CPU 使 用 100% 的 峰值 时 期 ， 不 过 这 是 一 种 
简化 : CMS 新 生 代 垃圾 收集 的 过 程 中 ， 实 际 可 能 有 非常 短 的 时 段 CPU 使 用 率 冲 高 到 
100%， 但 是 这 些 时 段 非 常 少 ， 所 以 在 这 里 的 讨论 中 我 们 忽略 了 这 部 分 时 间 。 


Concurrent 收集 器 可 以 同时 运行 多 个 后 台 线 程 ， 其 效果 是 类 似 的 : 这 些 后 台 线 程 运行 
时 会 消耗 额外 的 CPU 资源 ， 进 一 步 抬 高 了 长 期 的 CPU 的 平均 使 用 率 。 


监控 系统 中 定义 的 由 CPU 使 用 座 触 发 的 规则 尤其 重要 : 你 需要 确保 100% 的 CPU 使 
用 率 不 是 由 Full GC 所 引起 的 临时 性 CPU 暴涨 ， 或 者 是 由 于 后 台 并 行 处 理 线程 所 引起 
的 持续 时 间 更 长 (不 过 使 用 率 稍 低 ) 的 CPU 高 峰 。 在 Java 程序 的 世界 里 ， 这 些 峰 值 
都 是 正常 的 状况 。 











快速 小 结 

1. 使 用 Throughput 收集 器 处 理应 用 程序 线程 的 批量 任务 能 最 大 程度 地 利用 
CPU 的 处 理 能 力 ， 通 常 能 获得 更 好 的 性 能 。 

2 如果 批量 任务 并 没有 使 用 机 器 上 所 有 可 用 的 CPU 资源 ， 那 么 切换 到 
Concurrent 收集 器 往往 能 取得 更 好 的 性 能 。 


























2. GC 算 法 和 吞吐 量 测试 
测试 度量 的 目标 是 吞吐 量 时 ， 选 择 GC 算法 的 最 基本 的 取舍 跟 批量 任务 一 样 ， 但 是 停顿 所 
产生 的 影响 却 是 大 相 径 庭 。CPU 仍然 是 影响 总 体 性 能 非常 重要 的 一 环 。 
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本 节 中 ， 我 们 使 用 股票 servlet 程序 作为 测试 的 基准 ，servlet 程序 运行 在 GlashFish 服务 器 
实例 上 ,该 GlashFish 实例 配 有 2G 大 小 的 堆 ，servlet 需要 为 每 个 用 户 的 HTTP 会 话 保存 前 
10 个 HTTP 请 求 (这 个 需求 给 系统 的 垃圾 回收 带 来 了 更 多 的 压力 )。 表 5-2 展示 了 分 别 使 
用 Throughput 收集 器 和 CMS 收集 器 ，servlet 程序 的 吞吐 量 测试 结果 。 测 试 运行 的 机 器 配 
置 了 4 核 的 CPU。 

表 5-2: 使 用 不 同 的 GC 算 法 时 吞吐 量 的 情 / 

客户 端 会 话 数 Throughput TPS ( CPU 使 用 率 ) ”CMS TPS ( CPU 使 用 率 ) 


1 30.43 (29%) 31.98 (31%) 
10 81.34 (97%) 60.20 (85%) 



































我 们 运行 了 两 组 测试 来 度量 总 的 吞吐 量 。 第 一 组 测试 使 用 了 fhb 程序 来 模拟 单一 的 客户 
端 ， 第 二 组 测试 使 用 了 10 个 客户 端 发 起 负荷 ， 最 终 目标 机 器 的 CPU 被 撑 满 。 

存在 空闲 CPU 周期 时 ，CMS 收集 器 的 性 能 更 好 ， 比 Throughput 收集 器 的 每 秒 处 理 的 事务 
数 (TPS) 高 出 大 约 5%。Throughput 收集 器 在 测试 中 经 历 了 24 次 Full GC 的 停顿 (停顿 
时 它 无 法 继续 处 理 请 求 ) ， 这 些 停 顿 约 占 测 试 稳定 运行 时 间 的 5%。 通 过 避免 这 样 的 停顿 ， 
CMS 提供 了 更 好 的 吞吐 量 。 
然而 ， 当 CPU 资源 受 限 时 ，CMS 收集 器 的 表现 就 差 很 多 : 比 Throughput 收集 器 的 每 秒 吞 
吐 量 少 大 约 23.5%。 注 意 ， 测 试 中 ， 这 时 CMS 收集 器 甚至 无 法 让 CPU 以 接近 100% 忙碌 
的 程度 运行 。 那 是 因为 可 用 的 CPU 周期 无 法 支撑 后 台 的 CMS 收集 线程 运行 ， 所 以 CMS 
收集 器 发 生 了 并 发 模式 失效 (Concurrent Mode Failure)。 发 生 这 种 失效 意味 着 JVM 不 得 不 
赔 化 到 单线 程 的 Full GC 模式 ， 所 以 那 段 时 间 内 (4 颗 CPU 的 机 器 只 有 25% 的 CPU 处 于 
忙碌 状态 ) 平均 CPU 的 使 用 率 又 降 。 

3. GC 算 法 及 响应 时 间 测 试 

表 5-3 表明 请 求 之 间 的 Think Time 置 为 250 毫秒 时 ,使 用 同样 的 测试 ， 负 和 荷 处 理 速度 恒 
定 在 每 秒 29 个 事务 。 性 能 度量 的 标准 是 每 个 请 求 的 平均 响应 时 间 ，90% 的 响应 时 间 以 及 
99% 的 响应 时 间 。 

表 5-3: 使 用 不 同 GC 算 法 的 响应 时 间 

会 话 大 小 |Throughput 收 集 器 CMS 收集 器 

Avg 90th% 99th% CPU Avg 90th% 99th% CPU 

10 个 元 素 0.092 0.171 0.813 41% 0.104 QO.214 0.260 46% 

50 个 元 素 0.180 0.218 3.617 55% 0.107 0.222 0.315 53% 




































































第 一 个 测试 在 用 户 会 话 状态 中 保持 了 10 个 请 求 。 对 比 这 两 种 收集 器 ， 得 到 的 结果 是 比较 
典型 的 ，Throughput 收集 器 在 平均 响应 时 间 甚 至 是 90% 响应 时 间 的 指标 上 都 比 Concurrent 
收集 器 快 。 但 是 CMS 在 99% 响应 时 间 上 显示 了 巨大 的 优势 : Throughput 收集 器 在 完成 
剩 下 1% 的 垃圾 收集 工作 上 消耗 了 更 长 的 时 间 (Full GC 期 间 这 部 分 操作 被 完全 停止 了 ) 。 
CMS 收集 器 用 大 约 10% 的 CPU 处 理 能 力 提升 了 99% 时 的 响应 时 间 的 结果 。 


会 话 数据 中 的 请 求 数 增 大 到 50 个 ，GC 周期 的 影响 就 愈 发 明显 ， 尤 其 是 使 用 Throughput 收 
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集 器 时 。 这 时 Throughput 收集 器 的 响应 时 间 远 远大 于 CMS 收集 器， 这 些 都 源 于 大 量 的 超 
额 负荷 (outliers) 将 99% 的 响应 时 间 不 断 拉 长 ， 有 的 甚至 会 超过 3 秒 钟 。 不 过 还 有 一 个 有 
趣 的 现象 ，Throughput 收集 器 在 90% 响应 时 间 的 指标 上 低 于 CMS 收集 器 一 一 JVM 不 进行 
Full GC 的 时 候 ，Throughput 收集 器 依然 持 有 优势 。 


这 样 的 情况 时 不 时 会 发 生 ， 但 是 其 频率 要 远 远 低 于 第 一 种 情况 。 某 种 程度 上 ， 上 一 个 例子 

中 ，CMS 收集 器 是 幸运 的 : 通常 是 堆 内 保持 了 大 量 的 活跃 数据 导致 Throughput 收集 器 进行 

Full GC 的 时 间 占 用 了 大 部 分 的 响应 时 间 ， 这 种 情况 下 使 用 CMS 收集 器 也 会 发 生 并 行 模式 

失效 (Concurrent Mode Failure)。 而 这 个 例子 中 ，CMS 收集 器 的 后 台 处 理 线程 恰好 能 满足 

以 上 这 些 是 你 在 选择 适合 自身 性 能 目标 的 垃圾 回收 算法 时 需要 考虑 的 各 种 取舍 。 如 果 你 关 

注 的 仅仅 是 平均 响应 时 间 ， 那 么 Throughput 收集 器 和 Concurrent 收集 器 似乎 差别 不 大 ， 都 

能 满足 你 的 要 求 ， 你 可 以 进一步 考察 CPU 的 使 用 情况 (这 时 Throughput 收集 器 可 能 是 更 

优 的 选择 )。 如 果 你 关注 的 是 90% 或 者 其 他 百分比 的 响应 时 间 ， 那 就 只 能 通过 性 能 测试 来 

了 解 ， 完 成 这 些 任务 应 用 程序 会 进行 多 少 次 Full GC， 最 后 决定 选择 哪 种 收集 器 。 

快速 小 结 

1. 衡量 标准 是 响应 时 间或 吞吐 量 ， 在 Throughput 收集 器 和 Concurrent 收集 
器 之 间 做 选择 的 依据 主要 是 有 多 少 空闲 CPU 资源 能 用 于 运行 后 台 的 并 发 

2. 通常 情况 下 ，Throughput 收集 器 的 平均 响应 时 间 比 Concurrent 收集 器 要 
差 ， 但 是 在 90% 响应 时 间或 者 99% 响应 时 间 这 几 项 指标 上 ，Throughput 
收集 器 比 Concurrent 收集 器 要 好 一 些 。 

3. 使 用 Throughput 收集 器 会 超 负荷 地 进行 大 量 Full GC 时 ， 切 换 到 
Concurrent 收集 器 通常 能 获得 更 低 的 响应 时 间 。 


4. CMS 收集 器 和 G1 收 集 器 之 间 的 抉择 

上 一 节 的 测试 使 用 CMS 收集 器 作为 Concurrent 收集 器 。 一 般 情况 下 ， 堆 空间 小 于 4 GB 
时 ，CMS 收集 器 的 性 能 比 G1 收集 器 好 。CMS 收集 器 使 用 的 算法 比 G1 更 简单 ， 因 此 在 
比较 简单 的 环境 中 ( 壁 如 堆 的 容量 很 小 的 情况 )， 它 运行 得 更 快 。 使 用 大 型 堆 或 巨型 堆 时 ， 
由 于 G1 收集 器 可 以 分 割 工作 ， 通常 它 比 CMS 收集 器 表现 更 好 。 


回收 任何 对 象 之 前 ，CMS 收集 器 的 后 台 线 程 必须 扫描 完整 个 老年 代 空间 。 显 然 ， 扫 描 完 整 
个 堆 的 时 间 与 堆 的 大 小 密切 相关 。 如 果 堆 还 未 填 满 之 前 ，CMS 收集 器 的 后 台 线 程 就 停止 了 
堆 的 扫描 ， 直 接 回 收 对 象 ，CMS 收集 器 会 发 生 并 发 模式 失效 (Concurrent Mode Failure) : 
一 旦 发 生 这 样 的 状况 ，CMS 收集 器 就 不 得 不 回 退 ， 暂 停 所 有 的 应 用 线程 ， 进 行 Full GC 操 
作 。 这 时 处 理 Full GC 的 仅 有 唯一 一 个 线程 ， 性 能 的 损耗 非常 严重 。 虽 然 通过 调 优 CMS 收 
集 器 ， 我 们 可 以 使 用 多 个 后 台 线 程 来 减少 变化 带 来 的 损失 ， 不 过 随 着 堆 的 增 大 ，CMS 后 台 
线程 需要 处 理 的 工作 也 越 多 。(CMS 收集 器 发 生 并 发 模式 失效 同时 也 会 受 应 用 程序 的 内 存 
分 配 影 响 。) 


G1 收集 器 采用 了 不 同 的 方式 来 处 理 这 个 问题 ， 它 将 老年 代 划分 成 不 同 的 区 域 (Region)， 
能 更 加 容易 地 使 用 多 个 线程 分 担 扫 描 老年 代 空间 的 任务 。 如 有 果 后 台 线 程 跟 不 上 处 理 的 速 
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度 ，G1 收集 器 也 会 发 生 并 发 模式 失效 ， 但 是 G1 算法 已 经 使 得 发 生 这 种 状况 的 几率 减 小 了 
很 多 。 

由 于 CMS 收集 器 不 对 堆 进 行 压缩 整理 (除非 发 生 了 耗 时 的 Full GC) ， 堆 的 碎片 化 也 会 触 
发 CMS 收集 器 进行 Ful GC。G1 算法 在 处 理 过 程 中 随时 进行 着 堆 的 压缩 整理 ， 不 过 G1 收 
集 妖 依然 可 能 遭遇 堆 的 碎片 化 问题 ， 但 是 与 CMS 收集 器 比较 起 来 ， 它 的 设计 让 它 又 领先 
了 二 步 。 


调 优 CMS 收集 器 和 G1 收集 器 避免 发 生 这 些 失 效 的 方法 很 多 ， 但 对 一 些 应 用 程序 来 说 却 
不 一 定 奏效 。 随 着 堆 的 不 断 增 大 (发 生 Full GC 的 代价 变 得 更 加 昂贵 ) ， 使 用 G1 收集 器 更 
易于 避免 这 些 问 题 的 发 生 。( 另 一 方面 ， 对 有 的 程序 ， 试 图 通过 调 优 这 两 种 收集 器 的 任何 
一 种 避免 发 生 并 发 模式 失效 几乎 是 不 可 能 的 任务 。 因 此 ， 即 使 应 用 程序 的 性 能 目标 似乎 与 
Concurrent 收集 器 保持 一 致 ， 使 用 Throughput 收集 器 却 可 能 是 更 明智 的 选择 ) 。 


最 后 ， 在 这 三 种 收集 器 的 选择 时 还 有 一 些微 妙 的 无 形 因 素 需 要 考虑 。Throughput 收集 器 是 
这 三 个 收集 器 中 年 代 最 久远 的 一 个 ， 这 意味 着 JVM 工程 师 们 已 经 花费 了 大 量 的 时 间 精 力 
雕琢 把 玩 它 ， 它 的 习性 也 更 为 大 家 所 熟知 。G1 作为 相对 较 新 的 一 种 垃圾 收集 算法 ， 更 容 
易 磁 到 设计 时 无 法 预期 的 极端 情况 。 相 对 而 言 ，G1 算法 中 影响 性 能 的 调 优 控制 开关 更 少 ， 
这 可 能 是 好 事 ， 也 可 能 是 坏事 。 直 到 Java 704，G1 都 一 直 被 当 作 实 验 版 本 ， 它 的 一 些 调 优 
特性 直到 Java 7u10 中 才 提 供出 来 。 相 对 于 Java 7 及 之 前 的 版 本 而 言 ，G1 的 性 能 提升 主要 
体现 在 Java 8 中 。G1 将 来 的 工作 可 能 会 关注 在 如 何 提高 它 在 较 小 的 堆 上 相对 于 CMS 的 性 
能 优势 。 



















































































快速 小 结 

1.， 选择 Concurrent 收集 器 时 ， 如 果 堆 较 小 ， 推 荐 使 用 CMS 收集 器 。 

2.，G1 的 设计 使 得 它 能 够 在 不 同 的 分 区 (Region) 处 理 堆 ， 因 此 它 的 扩展 性 
更 好 ， 比 CMS 更 易于 处 理 超大 堆 的 情况 。 


5.2 GC 调 优 基础 


虽然 处 理 堆 时 各 种 GC 算法 有 所 差异 ， 但 是 它们 的 基本 配置 参数 是 一 致 的 。 很 多 情况 下 ， 
我 们 只 需要 这 些 基 础 的 配置 就 能 运行 应 用 程序 。 


5.2.1 调整 堆 的 大 小 


GC 调整 的 第 一 堂 课 是 调整 应 用 程序 堆 的 大 小 。 关 于 堆 大 小 的 调整 还 有 更 高 级 的 话题 ， 不 
过 作为 第 一 步 ， 我 们 首先 讨论 如 何 设置 总 体 堆 的 大 小 。 

与 其 他 的 性 能 问题 一 样 ， 选 择 堆 的 大 小 其 实 是 一 种 平衡 。 如 果 分 配 的 堆 过 于 小 ， 程 序 的 大 
部 分 时 间 可 能 都 消耗 在 GC 上 ， 没 有 足够 的 时 间 去 运行 应 用 程序 的 逻辑 。 但 是 ， 简 单 粗 暴 
地 设置 一 个 特别 大 的 堆 也 不 是 解决 问题 的 方法 。GC 停顿 消耗 的 时 间 取 决 于 堆 的 大 小 ， 如 
果 增 大 堆 的 空间 ， 停 顿 的 持续 时 间 也 会 变 长 。 这 种 情况 下 ， 停 顿 的 频率 会 变 得 更 少 ， 但 是 
它们 持续 的 时 间 会 让 程序 的 整体 性 能 变 慢 。 

使 用 超大 堆 还 有 另 一 个 风险 。 操 作 系 统 使 用 虚拟 内 存 机 制 管理 机 器 的 物理 内 存 。 一 人 台 机 器 
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可 能 有 8 G 的 物理 内 存 ， 不 过 操作 系统 可 能 让 你 感觉 有 更 多 的 可 用 内 存 。 虚 拟 内 存 的 数量 
取决 于 操作 系统 的 设置 ， 辟 如 操作 系统 可 能 让 你 感觉 它 的 内 存 达 到 了 16 G。 操 作 系 统 通过 
名 为 “交换 ”(swapping) (或 者 称 之 为 分 页 ， 虽然 这 两 者 之 间 在 技术 上 存在 着 差异 ， 但 是 
这 些 差 异 在 这 里 不 影响 我 们 的 讨论 )。 你 可 以 载 入 需要 16 G 内 存 的 应 用 程序 ， 操 作 系 统 在 
需要 时 会 将 程序 运行 时 不 活跃 的 数据 由 内 存 复制 到 磁盘 。 再 次 需 这 部 分 内 存 的 内 容 时 ， 操 
作 系 统 再 将 它们 由 磁盘 重新 载 入 到 内 存 (为 了 腾 出 空间 ， 通 常 它 会 先 将 另 一 部 分 内 存 的 内 
容 复 制 到 磁盘 )。 

系统 中 运行 着 大 量 不 同 的 应 用 程序 时 ， 这 个 流程 工作 得 很 顺畅 ， 因 为 大 多 数 的 应 用 程序 
不 会 同时 处 于 活跃 状态 。 但 是 ， 对 于 Java 应 用 ， 它 工作 得 并 不 那么 好 。 如 果 一 个 Java 
应 用 使 用 了 这 个 系统 上 大 约 12 G 的 堆 ， 操 作 系 统 可 能 在 RAM 上 分 配 了 8 G 的 堆 空 间 ， 
另外 4 G 的 空间 存在 于 磁盘 (这 个 假设 对 实际 情况 进行 了 一 些 简化 ， 因 为 应 用 程序 也 会 
使 用 部 分 的 RAM)。JVM 不 会 了 解 这 些 : 操作 系统 完全 屏蔽 了 内 存 交 换 的 细节 。 这 样 ， 
JVM 愉快 地 填 请 了 分 配给 它 的 12 G 推 空间 。 但 这 样 就 导致 了 严重 的 性 能 问题 ， 因 为 操 
作 系 统 需要 将 相当 一 部 分 的 数据 由 磁盘 交换 到 内 存 (这 是 一 个 昂贵 操作 的 开始 )。 

更 糟糕 的 是 ， 这 种 原本 期 望 一 次 性 的 内 存 交 换 操作 在 Full GC 时 一 定 会 再 次 重演 ， 因 为 
JVM 必须 访问 整个 堆 的 内 容 。 如 果 Full GC 时 系统 发 生 内 存 交 换 ， 停 顿时 间 会 以 正常 停顿 
时 间 数 个 量 级 的 方式 增长 。 类 似 地 ， 如 果 使 用 Concurrent 收集 器 ， 后 台 线 程 在 回收 堆 时 ， 
它 的 速度 也 可 能 会 被 拖 慢 ， 因 为 需要 等 待 从 磁盘 复制 数据 到 内 存 ， 结 果 导 致 发 生 代价 昂贵 
的 并 发 模式 失效 。 

因此 ， 调 整 堆 大 小 时 首要 的 原则 就 是 永远 不 要 将 堆 的 容量 设置 得 比 机 器 的 物理 内 存 还 大 ， 
另外 ， 如 果 同 一 台 机 器 上 运行 着 多 个 JVM 实例 ， 这 个 原则 适用 于 所 有 堆 的 总 和 。 除 此 之 
外 ， 你 还 需要 为 JVM 自身 以 及 机 器 上 其 他 的 应 用 程序 预 留 一 部 分 的 内 存 空间 : 通常 情况 
下 ， 对 于 普通 的 操作 系统 ， 应 该 预 留 至 少 1 G 的 内 存 空间 。 

堆 的 大 小 由 2 个 参数 值 控制 : 分 别 是 初始 值 (通过 -xms WN 设置 ) 和 最 大 值 (通过 -xmx W 设 
置 )。 默 认 值 的 调节 取决 于 多 个 因素 ， 包 括 操作 系统 类 型 、 系 统 内 存 大 小 、 使 用 的 JVM。 
其 他 的 命令 行 标志 也 会 对 该 值 造成 影响 ， 堆 大 小 的 调节 是 JVM 自 适 应 调 优 的 核心 。 


JVM 的 目标 是 依据 系统 可 用 的 资源 情况 找到 一 个 “合理 的 ”默认 初始 值 ， 当 且 仅 当 应 用 程 
序 需要 更 多 的 内 存 (依据 垃圾 回收 时 消耗 的 时 间 来 决定 ) 时 将 堆 的 大 小 增 大 到 一 个 合理 的 
最 大 值 。 到 目前 为 止 ，JVM 的 高 级 调 优 标志 以 及 调 优 细节 都 没有 提 及 。 为 了 让 大 家 有 一 个 
感性 的 认识 ， 我 们 列 出 了 扒 大 小 的 默认 最 大 值 和 最 小 值 供 大 家 参考 ， 参 见 表 5-4。( 为 了 使 
内 存 对 齐 ，JVM 会 对 这 些 值 进行 圆 整 操作 ， 所 以 GC 日 志 中 输出 的 大 小 可 能 与 表 中 给 出 的 
值 并 不 完全 一 致 )。 


表 5-4: 默认 堆 的 大 小 


























































































































































































































操作 系统 及 JVM 类 型 初始 堆 的 大 小 ( Xms ) 最 大 堆 的 大 小 ( Xmx ) 
Linux/Solaris，32 位 客户 端 16 MB 256 MB 
Linux/Soaris，32 位 服务 器 64 MB 取 1 GB 和 物理 内 存 大 小 1/4 二 者 中 的 
最 小 值 
Linux/Soaris，64 位 服务 器 取 512 MB 和 物理 内 存 大 小 取 32 GB 和 物理 内 存 大 小 1/4 二 者 中 
1/64 二 者 中 的 最 小 值 的 最 小 值 
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( 续 ) 














操作 系统 及 JVM 类 型 初始 堆 的 大 小 ( Xms ) 最 大 堆 的 大 小 ( Xmx ) 

MacOS，64 位 服务 器 型 JVM 64 MB 取 1 GB 和 物理 内 存 大 小 1/4 二 者 中 的 
最 小 值 

32 位 Window 系统 ， 客 户 端 型 JVM 16 MB 256 MB 

64 位 Window 系统 ， 服 务 器 型 JVM 64 MB 1 GB 和 物理 内 存 大 小 1/4 二 者 中 的 最 
小 值 






































如 果 机 器 的 物理 内 存 少 于 192 MB， 最 大 堆 的 大 小 会 是 物理 内 存 的 一 半 (大 约 96 MB, 或 
者 更 少 )。 

堆 的 大 小 具有 初始 值 和 最 大 值 的 这 种 设计 让 JVM 能 够 根据 实际 的 负荷 情况 更 灵活 地 调整 
JVM 的 行为 。 如 果 JVM 发 现 使 用 初始 的 堆 大 小 ， 频 繁 地 发 生 GC， 它 就 会 尝试 增 大 堆 的 空 
间 ， 直 到 JVM 的 GC 的 频率 回归 到 正常 的 范围 ， 或 者 直到 堆 大 小 增 大 到 它 的 上 限 值 。 


对 很 多 应 用 来 说 ， 这 意味 着 堆 的 大 小 不 再 需要 调整 了 。 实 际 上 ， 你 只 需要 为 你 选择 的 GC 
算法 设 定性 能 目标 : 譬如 你 能 忍受 的 停顿 持续 时 间 、 你 期 望 垃圾 回收 在 整个 时 间 中 所 占用 
的 百分比 等 。 有 具体 的 细节 设置 取决 于 你 选择 的 垃圾 收集 算法 ， 在 接 下 来 的 章节 我 们 会 进行 
深入 的 讨论 〈 然 而， 即使 到 了 那个 时 候 ， 为 了 能 尽 可 能 地 适用 于 更 多 的 应 用 程序 ， 减 少 调 
整 的 代价 ， 仍 然 可 能 使 用 默认 值 )。 

通常 ， 如 果 应 用 程序 运行 需要 的 堆 不 会 使 用 超过 运行 平台 默认 的 最 大 值 ， 这 个 方法 就 工作 
得 非常 好 。 然 而 ， 如 果 应 用 程序 在 GC 时 消耗 了 太 长 的 时 间 ， 你 很 有 可 能 需要 使 用 -xmx 标 
志 增 大 堆 的 大 小 。 选 择 什么 样 的 大 小 没有 一 个 硬性 的 或 简单 的 规则 (不 过 你 需要 确保 设 
置 的 大 小 是 机 器 可 以 支持 的 )。 一 个 经 验 法 则 是 完成 Full GC 后 ， 应 该 释放 出 70% 的 空间 
(30% 的 空间 仍然 占用 )。 为 了 衡量 这 个 结果 ， 你 可 以 持续 运行 应 用 程序 ， 直 到 其 到 达 稳 定 
态 配 置 , 这 时 它 已 经 载 入 了 需要 缓存 的 所 有 对 象 ， 或 者 已 经 创建 了 最 多 的 客户 端 连 接 数 ， 
诸如 此 类 。 之 后 ， 使 用 jconsole 连接 应 用 程序 ， 强 制 进行 Full GC， 观 察 Full GC 结束 后 
还 有 多 少 内 存 被 占用 (此 外 ， 对 于 Throughput 垃圾 收集 器 ， 如 果 有 日 志 的 话 ， 你 可 以 通过 
查询 GC 日 志 得 到 对 应 的 数据 ) 。 

注意 ， 即 使 你 显 式 地 设置 了 堆 的 最 大 容量 ， 还 是 会 发 生 堆 的 自动 调节 : 初始 时 堆 以 默认 的 
大 小 开始 运行 ， 为 了 达到 根据 垃圾 收集 算法 设置 的 性 能 目标 ，JVM 会 逐步 增 大 堆 的 大 小 。 
将 堆 的 大 小 设置 得 比 实际 需要 更 大 不 一 定 会 带 来 性 能 损耗 : 堆 并 不 会 无 限 地 增 大 ，JVM 会 
调节 堆 的 大 小 直到 其 请 足 GC 的 性 能 目标 。 

另 一 方面 ， 如 有 果 你 确切 地 了 解 应 用 程序 需要 多 大 的 堆 ， 那 么 你 可 以 将 堆 的 初始 值 和 最 大 值 
直接 设置 成 对 应 的 数值 (譬如 : -xms4696m -Xmx4096m) 。 这 种 设置 能 稍微 提高 GC 的 运行 效 
率 ， 因 为 它 不 再 需要 估算 堆 是 否 需 要 调整 大 小 了 。 


快速 小 结 

1. JVM 会 根据 其 运行 的 机 器 ， 尝 试 估算 合适 的 最 大 、 最 小 堆 的 大 小 。 

2. 除非 应 用 程序 需要 比 默 认 值 更 大 的 堆 ， 否 则 在 进行 调 优 时 ， 尽 量 考虑 通 
过 调整 GC 算法 的 性 能 目标 (具体 内 容 在 下 一 章 介 绍 )， 而 非 微调 堆 的 大 
小 来 改善 程序 性 能 。 














































































































5.2.2” 代 空间 的 调整 

一 且 堆 的 大 小 确定 下 来 ， 你 (或 者 JVM) 就 需要 决定 分 配 多 少 堆 给 新 生 代 空间 ， 多 少 给 
年 代 空 间 。 我 们 应 该 清楚 地 了 解 代 的 划分 对 性 能 的 影响 :如果 新 生 代 分 配 得 比较 大 ， 垃 圾 
收集 发 生 的 频率 就 比较 低 ， 从 新 生 代 晋升 到 老年 代 的 对 象 也 更 少 。 任 何事 物 都 有 两 面 性 ， 
采用 这 种 分 配方 法 ， 老 年 代 就 相对 比较 小 ， 比 较 容 易 被 填 满 ， 会 更 频繁 地 触发 Full GC。 
这 里 找到 一 个 恰当 的 平衡 点 是 解决 问题 的 关键 。 

不 同 的 GC 算法 尝试 使 用 不 同 的 方法 来 解决 这 些 平衡 问题 。 虽 然 方法 不 同 ， 不 过 所 有 的 
GC 方法 都 使 用 了 同一 套 标志 来 设置 代 的 大 小 ， 这 一 节 会 详细 介绍 这 些 通 用 的 标志 。 

所 有 用 于 调整 代 空 间 的 命令 行 标志 调整 的 都 是 新 生 代 空间 ， 新 生 代 空 间 剩 下 的 所 有 空间 都 
被 老年 代 占 用 。 多 个 标志 都 能 用 于 新 生 代 空间 的 调整 ， 它 们 分 别 如 下 所 列 。 

-XX:NewRatio=N 

设置 新 生 代 与 老年 代 的 空间 占用 比率 。 

-XX:NewSize=N 
设置 新 生 代 空间 的 初始 大 小 。 

-XX:MaxNewSize=N 

设置 新 生 代 空间 的 最 大 大 小 。 

-XmnN 

将 NewSize 和 MaxNewSize 设 定 为 同一 个 值 的 快捷 方法 。 


最 初 新 生 代 空间 大 小 是 由 NewRatio 指定 大 小 ，NewRatio 的 默认 值 为 2。 影 响 堆 空间 大 小 
的 参数 通常 以 比率 的 方式 指定 ， 这 个 值 被 用 于 一 个 计算 空间 分 配 的 公式 之 中 。 下 面 是 使 用 
NewRatio 计算 空间 的 公式 : 


Initial Young Gen Size = Initial Heap Size / (1 + NewRatio) 


代入 堆 的 初始 大 小 和 NewRatio 的 值 就 能 得 到 新 生 代 的 设置 值 。 那 么 我 们 很 容易 得 出 ， 默 认 
情况 下 ， 新 生 代 空间 的 大 小 是 初始 堆 大 小 的 33%。 


除 此 之 外 ， 新 生 代 的 大 小 也 可 以 通过 NewSize 标志 显 式 地 设 定 。 使 用 Newsize 标志 设 定 的 
新 生 代 大 小 ， 其 优先 级 要 高 于 通过 NewRatio 计算 出 来 的 新 生 代 大 小 。Newsize 标志 没有 默 
认 的 设置 (虽然 使 用 Printflagsfinal 标志 输出 的 值 为 1 MB)。Newsize 不 设置 的 情况 下 ， 
初始 的 新 生 代 大 小 由 NewRatio 计算 出 的 值 决定 。 


如 果 堆 的 大 小 扩张 ,新生 代 的 大 小 也 会 随 之 增 大 ， 直 到 由 MaxNewSize 标志 设 定 的 最 大 容 
量 。 上 默认 情况 下 ， 新 生 代 的 最 大 值 也 是 由 NewRatio 的 值 设 定 的 ， 不 过 它 也 同时 受制 于 堆 的 
最 大 容量 (注意 ， 不 是 初始 大 小 )。 


试图 通过 指定 新 生 代 的 最 大 及 最 小 值 区 间 的 方式 调 优 新 生 代 的 结果 是 十 分 困难 的 。 如 果 堆 
的 大 小 是 固定 的 (可 以 通过 将 -Xms 和 -Xmx 指定 为 相等 的 值 实现 )， 通 常 推 荐 使 用 -xmn 标 
志 将 新 生 代 也 设 定 为 固定 大 小 。 如 果 应 用 程序 需要 动态 调整 堆 的 大 小 ， 并 希望 有 一 个 更 大 
(或 者 更 小 ) 的 新 生 代 ， 那 就 需要 关注 NewRatio 值 的 设 定 。 
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快速 小 结 

1， 整 个 堆 范围 内 ， 不 同 代 的 大 小 划分 是 由 新 生 代 所 占用 的 空间 控制 的 。 

2. 新 生 代 的 大 小 会 随 着 整个 堆 大 小 的 增 大 而 增长 ， 但 这 也 是 随 着 整个 堆 的 
空间 比率 波动 变化 的 (依据 新 生 代 的 初始 值 和 最 大 值 ) 。 








5.2.3 永久 代 和 元 空间 的 调整 


JVM 载 入 类 的 时 候 ， 它 需要 记录 这 些 类 的 元 数据 。 从 终端 用 户 的 角度 来 看 ， 这 些 只 是 
一 些 “ 书 签 ”信息 。 这 部 分 数据 被 保存 在 一 个 单独 的 堆 空间 中 。 在 Java 7 里 ， 0 
间 被 称 为 永久 代 (Permgen 或 Permanent Generation)， 在 Java 8 中 ， 它 们 被 称 为 元 空间 
(Metaspace ) 。 


不 过 永久 代 和 元 空间 并 不 完全 一 样 。Java 7 中 ， 永 久 代 还 保存 了 一 些 与 类 数据 无 关 的 杂项 
对 象 (miscellaneous object) ; 这 些 对 象 在 Java 8 中 被 挪 到 了 普通 的 堆 空 间 内 。 除 此 之 外 ， 
Java 8 还 从 根本 上 改变 了 保存 在 这 个 特殊 区 域内 的 元 数据 的 类 型 \ 过 由 于 普通 用 户 不 
区 域内 保持 了 什么 样 的 数据 ， 所 以 这 些 改变 不 会 对 我 们 造成 什么 影响 。 作 为 

端 用 户 ， 我 们 需要 知道 的 仅仅 是 永久 代 级 元 罕 间 内 保存 了 大 量 与 类 相关 的 数据 ， 有 些 时 
0 这 部 分 空间 的 大 小 。 


注意 永久 代 或 者 元 空间 内 并 没有 保存 类 实例 的 具体 信息 〈 即 类 对 象 )， 也 没有 反射 对 象 
( 壁 如 方法 对 象 ) ;这 些 内 容 都 保存 在 常规 的 堆 空间 内 。 永 和 久 代 和 元 空间 内 保存 的 信息 只 对 
编译 器 或 者 JVM 的 运行 时 有 用 ， 这 部 分 信息 被 称 为 “类 的 元 数据 ”。 


到 目前 为 止 都 没有 一 个 能 提前 计算 出 程序 的 永久 代 /元 空间 需要 多 大 空间 的 好 算法 。 永 久 
代 或 者 元 空间 的 大 小 与 程序 使 用 的 类 的 数量 成 比率 相关 ， 应 用 程序 越 复 杂 ， 使 用 的 对 象 越 
多 ， 永 和 久 代 或 者 元 空间 就 越 大 。 使 用 元 空间 替换 掉 永 久 代 的 优势 之 一 是 我 们 不 再 需要 对 其 
进行 调整 一 一 因为 (不 像 永 久 代 ) 元 空间 默认 使 用 尽 可 能 多 的 空间 。 表 5-5 列 出 了 永久 代 
和 元 空间 的 初始 值 及 最 大 值 。 


表 5-5: 永久 代 / 元 空间 的 默认 大 小 
























































JVM 类 型 默认 的 初始 大 小 默认 永久 代 大 小 的 最 大 值 ”默认 元 空间 大 小 的 最 大 值 
32 位 客户 端 型 JVM 12 MB 64 MB 没有 限制 
32 位 服务 器 型 JVM 16 MB 64 MB 没有 限制 
64 位 JVM 20.75 MB 82 MB 没有 限制 








这 些 内 存 区 域 的 行为 就 像 是 分 隔 开 的 普通 堆 空间 。 它 们 会 根据 初始 的 大 小 动态 地 调 
整 ， 需 要 的 时 候 会 增 大 到 最 大 的 堆 空间 。 对 于 永久 代 而 言 ， 可 以 通过 -XX:PermSize=AM、 
-XX:MaxPermsize=N 标 志 调 整 大 小 。 而 元 空间 的 大 小 可 以 通过 -XX:MetaspaceSize=N 和 
-XX:MaxMetaspaceSize=N 调整 。 











元 空间 会 过 大 吗 ? 
由 于 元 空间 默认 的 大 小 是 没有 作 限 制 的 ， 因 此 Java 8 (尤其 是 32 位 系统 ) 的 应 用 可 能 
由 于 元 空间 被 填 满 而 耗 尽 内存 。 第 8 章 中 介绍 的 工具 本 地 内 存 跟踪 器 (Native Memory 
Tracking，NMT) 可 以 帮助 诊断 这 种 类 型 的 问题 。 如 果 元 空间 增长 得 过 大 ， 通 过 设置 
MaxMetaspaceSize 你 可 以 调整 元 空间 的 上 限 ， 将 其 限制 为 一 个 更 小 的 值 ， 不 过 这 又 会 导 
致 应 用 程序 最 后 由 于 元 空间 耗 尽 ， 发 生 OutOfMemoryError 异常 。 解 决 这 类 问题 的 终极 方 
法 还 是 定位 出 为 什么 类 的 元 空间 会 变 得 如 此 巨大 。 








调整 这 些 区 间 会 触发 Full GC， 所 以 是 一 种 代价 昂贵 的 操作 。 如 果 程 序 在 启动 时 发 生 大 量 
的 Full GC 〈 因 为 需要 载 和 人 数量 巨大 的 类 )， 通 常 都 是 由 于 永久 代 或 者 元 空间 发 生 了 大 小 调 
整 ， 因 此 这 种 情况 下 为 了 改善 启动 速度 ， 增 大 初始 值 是 个 不 错 的 主意 。 对 于 定义 了 大 量 类 
的 Java 7 应 用 ， 同 时 还 需要 增 大 永久 代 空 间 的 最 大 值 。 譬 如， 通常 情况 下 应 用 服务 器 永久 
代 的 最 大 值 会 设置 为 128 MB 、192 MB 或 者 更 多 。 


虽然 名 称 叫 “永久 代 ”， 保 存在 永久 代 空 间 中 的 数据 并 不 能 永久 保存 (元 空间 这 个 名 字 可 
能 更 准确 )。 尤 其 是 ， 保 存在 其 中 的 类 像 其 他 的 对 象 一 样 会 经 历 垃圾 回收 。 在 应 用 服务 器 
中 ， 这 是 一 种 非常 普遍 的 现象 ， 每 次 有 新 的 应 用 部 署 ， 应 用 服务 器 都 会 创建 新 的 类 加 载 器 
(classloader)。 之 后 老 的 类 加 载 器 就 不 再 被 引用 ， 像 它 定义 的 任何 一 个 类 一 样 ， 等 待 GC 的 
回收 。 应 用 服务 器 漫长 的 运行 周期 中 ， 很 容易 发 现 部 署 中 触发 的 Full GC: 永久 代 或 元 空 
间 被 新 的 类 所 充斥 填 满 ， 老 的 类 的 元 数据 等 待 被 回收 。 

堆 转 储 (参见 第 7 章 ) 的 信息 可 以 用 于 诊断 存在 哪些 类 加 载 器 ， 而 这 些 信 息 反 过 来 可 以 帮 
助 确 定 是 否 存在 类 加 载 器 的 泄漏 ， 最 终 导 致 永久 代 (或 者 元 空间 ) 被 耗 尽 。 除 此 之 外 ,使 
用 jmap 和 -permstat 参数 (适用 于 Java 7)、 或 者 -clstats 参数 (适用 于 Java 8) 可 以 输 
出 类 加 载 器 相关 的 信息 。 不 过 这 些 命令 都 不 是 非常 稳定 ， 所 以 不 大 推荐 使 用 。 


快速 小 结 

1. 永久 代 或 元 空间 保存 着 类 的 元 数据 (并 非 类 本 体 的 数据 )。 它 以 分 离 的 堆 
的 形式 存在 。 

2， 典 型 应 用 程序 在 启动 后 不 需要 载 和 新 的 类 ， 这 个 区 域 的 初始 值 可 以 依据 
所 有 类 都 加 载 后 的 情况 设置 。 使 用 优化 的 初始 值 能 够 加 速 启动 的 过 程 。 

3. 开发 中 的 应 用 服务 器 (或 者 任何 需要 频繁 重新 载 入 类 的 环境 ) 上 经 常 能 
碰 到 由 于 永久 代 或 元 空间 耗 尽 触 发 的 Full GC， 这 时 老 的 元 数据 会 被 丢弃 
回收 。 


5.2.4 控制 并 发 

除 Serial 收集 器 之 外 几乎 所 有 的 垃圾 收集 器 使 用 的 算法 都 基于 多 线程 。 启 动 的 线程 数 由 
-XX:ParallelGCThreads=N 参数 控制 。 对 下 面 这 些 操作 ， 这 个 参数 值 会 影响 线程 的 数目 : 

。 使 用 -XX:+UseParallelGc 收集 新 生 代 空间 

。 使 用 -XX:+UseParaLLeLOLdGC 收集 老年 代 空 间 
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。 使 用 -XX:+UseParNewGC 收集 新 生 代 空间 

。 使 用 -XX:+UseG1GC 收集 新 生 代 空间 

。 CMS 收集 器 的 “时 空 停顿 ”阶段 〈 但 并 非 Full GC) 
。 G1 收集 器 的 “时 空 停顿 ”阶段 (但 并 非 Full GC) 


由 于 GC 操作 会 暂停 所 有 的 应 用 程序 线程 ，JVM 为 了 尽量 缩短 停顿 时 间 就 必须 尽 可 能 地 利 
用 更 多 的 CPU 资源 。 这 意味 着 ， 默 认 情 况 下 ，JVM 会 在 机 器 的 每 个 CPU 上 运行 一 个 线 
程 ， 最 多 同时 运行 8 个。 一 旦 达到 这 个 上 限 ，JVM 会 调整 算法 ， 每 超出 5/8 个 CPU 启动 
一 个 新 的 线程 。 所 以 总 的 线程 数 就 是 (这 里 的 N 代表 CPU 的 数目 ) : 

ParallelGCThreads =8 + ((N- 8)*5/ 8) 


有 时候 使 用 这 个 算法 合算 出 来 的 线程 数目 会 偏 大 。 如 果 应 用 程序 使 用 一 个 较 小 的 堆 ( 壁 如 
大 小 为 1 GB) 运行 在 一 个 八 颗 CPU 的 机 器 上 ， 使 用 4 个 线程 或 者 6 个 线程 处 理 这 个 堆 可 
能 会 更 高 效 。 在 一 个 128 颗 CPU 的 机 器 上 ， 启 动 83 个 垃圾 收集 线程 可 能 也 太 多 了 ， 除 非 
系统 使 用 的 堆 已 经 达到 了 最 大 上 限 。 


除 此 之 外 ， 如 果 机 器 上 同时 运行 了 多 个 JVM 实例 ， 限 制 所 有 JVM 使 用 的 线程 总 数 是 个 不 
错 的 主意 。 这 时 ， 垃 圾 收集 线程 运行 起 来 会 更 加 高 效 ， 每 个 线程 都 能 100% 地 利用 各 CPU 
的 资源 (这 就 是 前 面 的 例子 中 Throughput 收集 器 的 平均 CPU 使 用 率 比 预期 值 更 高 的 原 
因 )。 在 8 核 或 者 CPU 更 少 的 机 器 上 ， 垃 圾 收集 线程 会 100% 地 占用 机 器 的 CPU 处 理 资 
源 。 在 拥有 更 多 CPU、 运 行 了 多 个 JVM 的 机 器 上 ， 通常 出 现 的 问题 是 有 太 多 的 垃圾 回收 
线程 在 同时 并 发 运行 。 

以 16 核 CPU 的 机 器 同时 运行 4 个 JVM 实例 为 例 ， 每 个 JVM 默认 会 启动 13 个 垃圾 收集 
线程 。 如 果 四 个 JVM 同时 进行 垃圾 回收 操作 ， 机 器 上 会 启动 大 约 52 个 CPU 密集 型 线程 
竞争 CPU 资源 。 这 会 导致 大 量 的 冲突 ， 如 果 能 够 限制 每 个 JVM 最 多 启动 4 个 垃圾 收集 线 
程 ， 效 率 会 高 很 多 。 即 使 在 同一 个 时 刻 ，4 个 JVM 中 的 线程 不 大 可 能 同时 进行 GC 操作 ， 
一 个 JVM 上 同时 运行 13 个 线程 也 意味 着 其 他 JVM 上 的 应 用 程序 线程 不 得 不 在 一 台 总 共 
有 16 个 CPU， 且 其 中 13 个 CPU 被 繁忙 的 垃圾 收集 任务 100% 占用 的 机 器 上 竞争 资源 。 
这 种 情况 下 ， 将 每 个 JVM 的 垃圾 收集 线程 数 限制 到 4 个 是 一 个 比较 合理 的 平衡 。 注 意 ， 
这 个 标志 不 会 对 CMS 收集 器 或 者 G1 收集 器 的 后 台 线 程 数 作 设 定 (虽然 它们 也 会 受 设置 的 
影响 )。 关 于 其 中 的 细节 ， 我 们 会 在 下 一 章 中 介绍 。 






























































快速 小 结 
1. 几乎 所 有 的 垃圾 收集 算法 中 基本 的 垃圾 回收 线程 数 都 依据 机 器 上 的 CPU 
数目 计算 得 出 。 








2. 多 个 JVM 运行 于 同一 台 物 理 机 上 时 ， 依 据 公式 计算 出 的 线程 数 可 能 过 
高 ， 必 须 进行 优化 (减少)。 





5.2.5” 自 适应 调整 


根据 调 优 的 策略 ，JVM 会 不 断 地 尝试 ， 寻 找 优化 性 能 的 机 会 ， 所 以 在 JVM 的 运行 过 程 中 ， 
堆 、 代 以 及 Survivor 空间 的 大 小 都 可 能 会 发 生变 化 。 
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这 是 一 种 尽力 而 为 《Best-Effort) 的 方案 ， 它 进行 性 能 调 优 的 依据 是 以 往 的 性 能 历史 : 这 
其 中 隐 含 了 一 个 假设 ， 即 将 来 GC 周期 的 状况 跟 最 近 历 史 GC 周期 的 状况 可 能 很 类 似 。 寻 
实证 明 ， 在 多 种 负荷 下 这 一 假设 都 是 合理 的 ， 即 使 某 个 时 刻 内 存 的 分 配 发 生 突变 的 情况 ， 
JVM 也 能 够 依据 最 新 的 情况 重新 调整 它 的 大 小 。 


自 适应 调整 在 两 个 方面 能 提供 重要 的 帮助 。 其 一 ， 这 意味 着 小 型 应 用 程序 不 需要 再 为 指定 
了 过 大 的 堆 而 担心 。 辟 如 用 于 调整 应 用 服务 器 的 命令 行 管理 程序 ， 这 类 型 的 程序 通常 使 用 
16 MB (或 者 64 MB) 的 堆 ， 即 使 默认 的 堆 可 能 增长 到 1 GB 那么 大 的 容量 。 有 了 自 适 应 
调整 之 后 ， 这 种 类 型 的 应 用 程序 不 再 需要 额外 花费 精力 去 调 优 ， 平 台 默 认 的 配置 就 能 确保 
他 们 不 会 使 用 大 量 的 内 存 。 


其 次 ， 这 意味 着 很 多 应 用 程序 根本 不 需要 担心 它们 堆 的 大 小 ， 如 果 需 要 使 用 的 堆 的 大 小 超 
过 了 平台 的 默认 值 ， 他 们 可 以 放心 地 分 配 更 大 的 堆 ， 而 不 用 关心 其 他 的 细节 。JVM 会 自动 
调整 堆 和 代 的 大 小 ， 依 据 垃圾 回收 算法 的 性 能 目标 ， 使 用 优化 的 内 存量 。 自 适应 调整 就 是 
让 自动 调整 生效 的 法 宝 。 


不 过 ， 空 间 大 小 的 调整 终归 要 花费 一 定 的 时 间 开销 ， 这 部 分 时 间 大 多 数 消 耗 在 GC 停顿 
的 时 候 。 如 果 你 投注 了 大 量 的 时 间 精 细 地 调 优 了 垃圾 回收 的 参数 、 定 义 了 应 用 程序 堆 的 
大 小 限制 ， 可 以 考虑 关闭 自 适应 调整 。 如 果 应 用 程序 的 运行 明显 地 可 以 划分 成 不 同 的 阶 
段 ， 你 希望 对 这 些 阶段 中 的 某 一 个 阶段 进行 垃圾 回收 的 优化 ， 那 么 关闭 自 适 应 调 优 也 是 
很 有 帮助 的 。 

使 用 -XX: -UseAdaptiveSizePotLicy 标志 可 以 在 全 局 范围 内 关闭 自 适应 调整 功能 (默认 情况 
下 ， 这 个 标志 是 开启 的 )。 如 果 堆 容量 的 最 大 、 最 小 值 设置 成 同样 的 值 ， 与 此 同时 新 生 代 
的 初始 值 和 最 大 值 也 设置 为 同样 大 小 ， 自 适应 调整 的 功能 会 被 关闭 。 不 过 这 时 的 Survivor 
空间 是 个 例外 ， 我 们 在 下 一 章 中 会 详细 介绍 其 中 的 细节 。 

如 果 你 想 了 解 应 用 程序 运行 时 JVM 的 空间 是 如 何 调整 的 ， 可 以 设置 -XX:+PrintAdapti 
veSizePolicy 标志 。 开 启 该 标志 后 ， 一 旦 发 生 垃 圾 回收 ，GC 的 日 志 中 会 包含 垃圾 回收 时 
不 同 的 代 进 行 空间 调整 的 细节 信息 。 
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快速 小 结 
1. JVM 在 堆 的 内 部 如 何 调整 新 生 代 及 老年 代 的 百分比 是 由 自 适应 调整 机 制 
控制 的 。 





2. 通常 情况 下 ， 我 们 应 该 开启 自 适应 调整 ， 因 为 垃圾 
后 的 代 的 大 小 来 达到 它 停顿 时 间 的 性 能 目标 。 
3. 对 于 已 经 精细 调 优 过 的 堆 ， 关 闭 自 适应 调整 能 获得 一 定 的 性 能 提升 。 


5.3 垃圾 回收 工具 


由 于 垃圾 回收 对 Java 的 性 能 影响 至 关 重 要 ， 业 界 提 供 了 大 量 的 工具 用 于 监控 它 的 性 能 。 


观察 垃圾 回收 对 应 用 程序 的 性 能 影响 最 好 的 方法 就 是 尽量 熟悉 垃圾 回收 的 日 志 ， 垃 圾 回收 
日 志 中 包含 了 程序 运行 过 程 中 的 每 一 次 垃圾 回收 操作 。 


b=! 





收 算法 依赖 于 调整 
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垃圾 回收 日 志 的 细节 依据 使 用 的 垃圾 回收 算法 各 有 不 同 ， 不 过 垃圾 回收 日 志 的 基本 结构 
(management) 是 一 致 的 。 这 一 节 我 们 会 介绍 这 些 结构 ， 与 具体 垃圾 回收 算法 相关 的 更 多 
日 志 细 节 会 在 下 一 章 中 介绍 。 


多 种 方法 都 能 开启 GC 的 日 志 功能 ， 其 中 包括 : 使 用 -verbose:gc 或 -XX:+PrintGC 这 两 个 
标志 中 的 任意 一 个 能 创建 基本 的 GC 日 志 (这 两 个 日 志 标 志 实 际 上 互 为 别名 ， 上 默认 情况 下 
的 GC 日 志 功 能 是 关闭 的 )。 使 用 -XX:+PrintGCDetails 标志 会 创建 更 详细 的 GC 日 志 。 我 
们 推荐 使 用 -XX:+PrintGCDetails 标志 (这 个 标志 默认 情况 下 也 是 关闭 的 ) ; 通常 情况 下 使 
用 基本 的 GC 日 志 很 难 诊断 垃圾 回收 时 发 生 的 问题 。 除 了 使 用 详细 的 GC 日志， 我 们 还 推 
荐 使 用 -XX:+PrintGCTimeStamps 或 者 -XX:+PrintGCDateStamps， 便 于 我 们 更 精确 地 判断 几 
次 GC 操作 之 间 的 时 间 。 这 两 个 参数 之 间 的 差别 在 于 时 间 惟 是 相对 于 0 (依据 JVM 启动 的 
时 间 ) 的 值 ， 而 日 期 戳 (date stamp) 是 实际 的 日 期 字符 串 。 由 于 日 期 戳 需 要 进行 格式 化 ， 
所 以 它 的 效率 可 能 会 受 轻微 的 影响 ， 不 过 这 种 操作 并 不 频繁 ， 它 造成 的 影响 也 很 难 被 我 们 
感知 。 


默认 情况 下 GC 日 志 直 接 输 出 到 标准 输出 ， 不 过 使 用 -Xloggc:filenanme 标志 也 能 修改 输出 
到 某 个 文件 。 除 非 显 式 地 使 用 -PrintGCDetails 标志 ， 否 则 使 用 -Xloggc 会 自动 地 开启 基 
本 日 志 模 式 。 使 用 日 志 循环 (Log rotation) 标志 可 以 限制 保存 在 GC 日 志 中 的 数据 量 ， 对 
于 需要 长 时 间 运 行 的 服务 器 而 言 ， 这 是 一 个 非常 有 用 的 标志 ， 人 否则 累积 几 个 月 的 数据 很 
可 能 会 耗 尽 服务 器 的 磁盘 。 通 过 Se ee Lalo -XX:NumberOfGCLogfiles=N 
-XX:GCLogfiLeSize=N 标 志 可 以 控制 日 志文 件 的 循环 。 默 认 情 况 下 ，UseGCLogfiLeRotation 
标志 是 关闭 的 。 开 启 UseGCLogfileRotation 标志 后 ， 默 认 的 文件 数目 是 0 (意味 着 不 作 任 
何 限 制 )， 上 默认 的 日 志文 件 大 小 是 0 (同样 也 是 不 作 任 何 限制 )。 因 此 ， 为 了 让 日 志 循 环 功 
能 真正 生效 ， 我 们 必须 为 所 有 这 些 标志 设 定 值 。 需 要 注意 的 是 ， 如 果 设 定 的 数值 不 足 8 KB 
的 话 ， 日 志文 件 的 大 小 会 以 8 KB 为 单位 规整 。 

根据 需要 ， 你 可 以 手工 地 解析 、 研 读 垃 圾 回收 日 志 ， 也 可 以 利用 一 些 工 具 来 完成 这 部 分 工 
作 。GC Histogram (http://java.net/projects/gchisto) 就 是 这 些 工 具 中 的 一 员 。GC Histogram 
能 够 读 入 GC 日志， 根据 日 志文 件 中 的 数据 生成 对 应 的 图 表 和 表格 。 图 5-4 是 由 GC 
Histogram 生成 的 GC 开销 的 概略 表 。 

























































































Num Num (%) |Total GC Se Total GC (9%) Overhead(... Avg (ms) | Sigma (ms) Min (ms) Max (ms) 
Al _ 474 100.00%| 193.246| 100.00%| 41.29%| 407.693| 。 1,347.194| 57.254| 9,592.072| 
Young GC 457| 96.41%| 元 - 3 37,11% 15.,32%| 156.904 44.162| 57.254| 260,142| 
Full GC 17| 3.5996| 121.541 62,89%| 25.,97%| 7,149.478| 1,873,358| 224.791| 9,592.072| 
































图 5-4: GC Histogram 的 停顿 状态 选项 卡 





在 这 个 例子 中 ，JVM 消耗 了 41% 的 时 间 进 行 垃圾 回收 ， 完 成 一 次 Full GC 的 时 间 长 达 7 秒 
钟 。 很 明显 ， 这 个 应 用 程序 需要 调 优 它 的 内 存 使 用 。 

使 用 jconsole 可 以 实时 监控 堆 的 使 用 情况 。jconsole 的 内 存 面 板 可 以 实时 查看 堆 的 使 用 
状况 ， 如 图 5-5 所 示 。 
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图 5-5; 查看 堆 的 实时 状况 
从 这 幅 视图 我 们 能 看 到 整个 堆 的 使 用 情况 ， 它 在 





介 于 100 MB 到 160 MB 的 区 间 内 周期 性 


地 循环 。 使 用 jconsole 一 次 只 能 看 到 一 个 分 区 的 使 用 情况 : 要 么 是 Eden 空间 ， 要 么 是 
Survivor 空间 ， 要 么 是 老年 代 ， 或 者 是 永久 代 。 如 果 选 择 Eden 空间 作为 绘制 图 表 的 区 域 ， 
能 看 到 Eden 空间 以 相似 的 模式 在 0 MB 到 60 MB 之 间 波 动 (并 且 ， 跟 你 的 猜测 一 样 ， 如 


果 依 据 老年 代 的 数据 作 











图 ， 那 它 基 本 将 是 一 条 横 在 100 MB 的 水 平 线 )。 

















如 有 果 你 希望 使 用 脚本 的 方式 获取 数据 ，jstat 是 到 
堆 的 各 种 数据 ， 使 用 jstat -options 选项 能 够 列 


项 是 -gcutil， 它 能 够 输出 消耗 在 GC 上 的 时 间 ， 














E 想 的 工具 。jstat 提供 了 9 个 选项 ， 提 供 
出 所 有 这 些 选项 。 这 其 中 最 常用 的 一 个 选 
以 及 每 个 GC 区 域 使 用 的 百分比 。 其 他 的 



































选项 能 够 以 KB 为 单位 输出 各 GC 空间 的 大 小 。 
注意 ，jstat 接受 一 个 可 选 的 参数 ， 指 定 每 隔 多 少 毫秒 重复 执行 这 个 命令 ， 这 个 选项 帮助 
我 们 长 时 间 地 监控 应 用 程序 的 垃圾 回收 过 程 。 下 面 是 一 个 示例 的 输出 ， 它 以 每 隔 一 秒 钟 的 
频率 运行 。 
% jstat -gcutil process_id 1000 

90 Ss1 E 0 RB YGC YGCT FGC FGCT GCT 

51.71 0.00 99.12 60.00 99.93 98 1.985 8 2.397 4.382 

0.00 42.08 5.55 60.98 99.93 99 2.016 8 2.397 4.413 

0.00 42.08 6.32 60.98 99.93 99 2.016 8 2.397 4.413 

0.00 42.08 68.06 60.98 99.93 99 2.016 8 2.397 4.413 

0.00 42.08 82.27 60.98 99.93 99 2.016 8 2.397 4.413 

0.00 42.08 96.67 60.98 99.93 99 2.016 8 2.397 4.413 

0.00 42.08 99.30 60.98 99.93 99 2.016 8 2.397 4.413 

44.54 0.00 1.38 60.98 99.93 100 2.042 8 2.397 4.439 

44.54 0.00 1.91 60.98 99.93 100 2.042 8 2.397 4.439 
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在 这 个 例子 中 ， 监 控 开 始 时 ， 程 序 已 经 在 新 生 代 (YGC) 中 进行 了 99 次 垃圾 回收 操作 ， 这 
总 共 消 耗 了 大 约 1.985 秒 的 时 间 (YGCT)。 于 此 同时 ， 它 还 完成 了 8 次 Full GC (FGC),， 消 
耗 了 2.397 秒 的 时 间 (FGCT) ;因此 GC 消耗 的 总 时 长 (GCT) 为 4.382 秒 。 


新 生 代 中 三 个 区 间 的 数据 都 在 这 里 列 出 : 两 个 Survivor 空间 (分 别 是 S96 和 51) 以 及 1 个 
Eden 空间 (标记 为 E)。 监 控 开始 时 ，Eden 空间 几乎 要 被 填 满 了 (已 经 占用 了 99.12% 的 
空间 ) ， 因 此 下 一 秒 就 有 一 次 新 生 代 的 垃圾 回收 : 这 之 后 Eden 空间 的 使 用 率 回 落 到 5.55%， 
Survivor 空间 发 生 了 交换 ， 一 部 分 内 存 对 象 被 晋升 到 了 老年 代 空 间 (标记 为 0) ， 老 年 代 的 
空间 使 用 率 增长 到 60.98%。 跟 典型 的 场景 一 样 ， 我 们 没有 在 永久 代 〈 标 记 为 P) 发 现 大 幅 
度 的 变化 ， 因 为 几乎 所 有 需要 的 类 都 已 经 在 程序 启动 时 载 和 内存。 


如 果 你 不 记得 如 何 开启 GC 日 志 ， 这 是 一 个 很 好 的 替代 方法 ， 它 能 帮助 我 们 观察 垃圾 回收 
是 如 何在 较 长 的 时 间 跨 度 内 工作 的 。 

















快速 小 结 
1. GC 日 志 是 分 析 GC 相关 问题 的 重要 线索 ;我 们 应 该 开启 GC 日 志 标志 
(即使 是 在 生产 服务 器 上 )。 








2. 使 用 PrintGCDetails 标志 能 获得 更 详尽 的 GC 日 志 信 息 。 

3. 使 用 工具 能 很 有 效 地 帮助 我 们 解析 和 理解 GC 日 志 的 内 容 ， 尤 其 是 在 对 
GC 日 志 中 的 数据 进行 归纳 汇总 时 ， 它 们 非常 有 帮助 。 

4. 使 用 jstat 能 动态 地 观察 运行 程序 的 垃圾 回收 操作 。 














5.4 小结 

对 任何 一 个 Java 应 用 程序 而 言 ， 垃 圾 收集 的 性 能 都 是 其 构成 整体 性 能 的 关键 一 环 。 虽 然 
对 大 多 数 的 应 用 程序 来 说 ， 调 优 的 工作 仅仅 是 选择 合适 的 垃圾 收集 算法 ， 或 者 在 需要 的 时 
候 ， 增 大 应 用 程序 的 堆 空 间 。 

自 适 应 调整 让 JVM 能 够 自动 地 调整 它 的 行为 ， 使 用 给 定 的 堆 ， 提 供 尽 可 能 好 的 性 能 。 

更 复杂 的 应 用 往往 需要 额外 的 调 优 ， 尤 其 是 针对 特定 GC 算法 的 调 优 。 如 果 这 一 章 中 简单 
的 GC 设置 并 没有 解决 应 用 程序 的 性 能 问题 ， 请 参考 下 一 章 中 介绍 的 调 优 内 容 。 
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第 5 章 介绍 了 垃圾 收集 器 的 通用 行为 ， 包 括 普遍 适用 于 所 有 垃圾 回收 算法 的 JVM 调 优 标 
志 : 如 何 选择 堆 的 大 小 ， 如 何 选择 代 的 大 小 ， 如 何 开 局 和 设置 GC 日 志 ， 等 等 。 

这 些 基础 的 调 优 标志 已 经 足以 应 付 大 多 数 的 场景 。 当 它们 无 法 解决 问题 时 ， 往 往 需要 查看 
使 用 的 GC 算法 中 有 具体 是 哪些 操作 影响 了 性 能 ， 进 一 步 判 断 如 何 调整 对 应 的 参数 ， 从 而 最 
大 程度 地 减少 GC 操作 对 应 用 程序 性 能 的 影响 。 


调 优 特定 收集 器 最 要 紧 的 信息 是 启动 垃圾 收集 器 后 GC 日 志 中 的 数据 。 从 本 章 开始 ， 我 们 
会 从 GC 的 日 志 输 出 角度 详细 分 析 每 种 垃圾 收集 算法 的 行为 ; 分 析 GC 日 志 能 帮助 我 们 更 
好 地 理解 垃圾 收集 算法 是 如 何 工作 的 ， 以 及 怎样 调 市 参数 能 让 它们 工作 得 更 好 。 之 后 的 每 
一 方 都 会 包含 一 个 性 能 调 优 的 实战 例子 。 

还 有 一 些 其 他 的 因素 也 会 影响 几乎 所 有 垃圾 回收 算法 的 性 能 ， 包 括 分 配 巨 型 对 象 、 对 象 的 
生命 周期 既 不 长 又 不 短 ， 等 等 。 我 们 会 在 本 章 的 末尾 讨论 这 些 场景 。 


6.1 理解 Throughput 收 集 器 


我 们 会 逐一 分 析 各 个 垃圾 收集 器 的 行为 ， 首 先 会 介绍 Throughput 收集 器 。Throughput 收集 
器 有 两 个 基本 的 操作 : 其 一 是 回收 新 生 代 的 垃圾 ， 其 二 是 回收 老年 代 的 垃圾 。 


图 6-1 展示 了 堆 在 新 生 代 回收 之 前 和 回收 之 后 的 情况 。 
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Minor GC 之 前 





Eden 空 间 S0 S1 老年 代 


Minor GC 之 后 
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| ”i 


Eden 空 间 S0 S1 老年 代 











6-1: Throughput 垃圾 回收 中 的 新 生 代 


通常 新 生 代 的 垃圾 回收 发 生 在 Eden 空间 快 用 尽 时 。 新 生 代 垃圾 收集 会 














巴 Eden 空间 中 的 所 





有 对 象 挪 走 : 一 部 分 对 象 会 被 移动 到 Survivor 空间 ( 即 这 幅 图 中 的 S0 区域)， 
移动 到 老年 代 ， 正 如 你 看 到 的 ， 回 收 之 后 老年 代 中 保存 了 更 多 的 对 象 。 当 然 ， 还 有 大 量 的 





对 象 因为 没有 任何 对 象 引用 而 被 回收 。 














开启 了 PrintGCDetails 标志 的 GC 日 志 中 ，Minor GC 形式 如 下 : 


17.806: [GC [PSYoungGen: 227983K->14463K(264128K)] 
280122K->66610K(613696K)，0.0169320 secs] 


[Times: user=0.05 sys=0.00, 


这 次 GC 在 程序 开始 运行 17.806 秒 后 发 生 。 现 在 新 生 代 中 对 象 占 月 





reaL=0.02 secs] 




















其 他 的 会 被 


日 的 空间 为 14 463 KB 


( 约 为 14 MB ， 位 于 Survivor 空间 内 ) ; GC 之 前 ， 新 生 代 对 象 占用 的 空间 为 227 983 KB 
( 约 为 227 MB )。( 实 际 上 ，227 893 KB 严格 折算 只 有 222 MB ， 为 了 便于 讨论 ， 本 章 中 
以 1000 为 单位 将 它们 折算 到 KB。 这 里 假设 我 是 磁盘 生产 商 。) 新 生 代 这 时 总 的 大 小 为 





264 MB 。 











与 此 同时 ， 堆 的 空间 总 的 使 用 情况 (包含 新 生 代 和 老年 代 ) 从 280 MB 减少 到 了 66 MB， 











这 个 时 刻 整 个 堆 的 大 小 为 613 MB。 完 成 垃圾 
时 间 是 0.0 169 320 秒 




















回收 操作 耗 时 0.02 秒 〈 排 在 输 昌 








最 后 的 Real 








实际 时 间 进 行 了 归 整 )。 程 序 消耗 的 CPU 时 间 比 Real 时 间 往 往 





更 多 ,原因 是 新 生 代 垃圾 回收 会 使 用 多 个 线程 (这 个 例子 中 ,使 用 了 4 个 线程 )。 
6-2 展示 了 Full GC 之 前 及 之 后 堆 的 使 用 情况 。 

















Full GC 之 前 





Eden 空 间 S0 S1 老年 代 
Full GC 之 后 
Eden 空 间 S0 S1 老年 代 














6-2: 使 用 Throughput 收集 器 的 Full GC 


老年 代 垃 圾 收集 会 回收 新 生 代 中 所 有 的 对 象 (包括 Survivor 空间 中 的 对 象 )。 只 
活跃 引用 的 对 象 ， 或 者 已 经 经 过 压缩 整理 的 对 象 (它们 占据 了 老年 代 的 开始 部 分 
年 代 中 继续 保持 ， 其 余 的 对 象 都 会 被 回收 。 


Full GC 的 日 志 输 出 示例 如 下 : 


64.546: [Full GC [PSYoungGen: 15808K->0K(339456K)] 
[ParOldGen: 457753K->392528K(554432K)] 473561K->392528K(893888K) 
[PSPermGen: 56728K->56728K(115392K)] ，1.3367080 secs] 
[Times: user=4.44 sys=0.01, real=1.34 secs] 


新 生 代 的 空间 使 用 在 经 历 Full GC 之 后 变 为 0 字 节 (新 生 代 的 大 小 为 339 MB)。 老 年 代 中 
的 空间 使 用 从 457 MB 减少 到 了 392 MB， 因 此 整个 堆 的 使 用 从 473 MB 减少 到 了 392 MB。 
永久 代 空 间 的 使 用 没有 发 生变 化 ;在 多 数 的 Full GC 中 ， 永 久 代 的 对 象 都 不 会 被 回收 。( 如 
果 永 和 久 代 空间 耗 尽 ，JVM 会 发 起 Full GC 回收 永久 代 中 的 对 象 ， 这 时 你 会 观察 到 永久 代 空 
间 的 变化 一 一 这 是 永久 代 进 行 回收 唯一 的 情况 。 这 个 例子 使 用 的 是 Java 7; 在 Java 8 中 ， 
类 似 的 信息 可 以 在 元 空间 中 找到 )。 由 于 Full GC 要 进行 大 量 的 工作 ， 所 以 消耗 了 约 1.3 秒 
的 Real 时 间 ，4.4 秒 的 CPU 时 间 (同样 源 于 使 用 了 4 个 并 行 的 线程 )。 

快速 小 结 

1.， Throughput 收集 器 会 进行 两 种 操作 ， 分 别 是 Minor GC 和 Full GC。 

2. 通过 GC 日 志 中 的 时 间 输 出 ， 我 们 可 以 迅速 地 判断 出 Throughput 收集 器 

的 GC 操作 对 应 用 程序 总 体 性 能 的 影响 。 


堆 大 小 的 自 适 应 调整 和 静态 调整 

Throughput 收集 器 的 调 优 几 乎 都 是 围绕 停顿 时 间 进 行 的 ， 寻 求 堆 的 总 体 大 小 、 新 生 代 的 大 
小 以 及 老年 代 大 小 之 间 平衡。 

考虑 Throughput 收集 器 的 调 优 方 案 时 有 两 种 取舍 。 首 先 比较 经 典 的 是 编程 技术 上 的 取舍， 
即时 间 与 空间 的 取舍 。 
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第 二 个 取舍 与 完成 垃圾 回收 所 需 的 时 长 相关 。 增 大 堆 能 够 减少 Full GC 停顿 发 生 的 频率 ， 
但 也 有 其 局 限 性 : 由 于 GC 时 间 变 得 更 长 ， 平 均 响 应 时 间 也 会 变 长 。 类 似 地 ， 为 新 生 代 
分 配 更 多 的 堆 空 间 可 以 缩短 Full GC 的 停顿 时 间 ， 不 过 这 又 会 增 大 老年 代 垃 圾 回收 的 频率 
(因为 老年 代 空间 保持 不 变 或 者 变 得 更 小 了 )。 


图 6-3 展示 了 采用 这 些 取 舍 的 效果 。 图 上 显示 的 是 运行 在 GlassFish 实例 上 的 股票 Servlet 
应 用 ， 在 使 用 不 同 大 小 的 堆 时 ， 最 大 吞吐 量 的 变化 情况 。 使 用 256 MB 的 小 堆 时 ， 应 用 服 
务 器 在 垃圾 回收 上 消耗 了 大 量 的 时 间 (实际 消耗 的 时 间 高 达 总 时 间 的 36%) ;吞吐 量 因此 
受到 限制 ， 比 较 低 。 随 着 堆 大 小 的 增加 ， 吞 吐 量 迅 速 提 升 一 一 直到 堆 的 容量 增 大 到 1500 
MB。 这 之 后 吞吐 量 的 增 速 迅速 减缓 ， 这 时 应 用 程序 实际 已 经 不 太 受 垃圾 回收 的 影响 〈 垃 
圾 回收 消耗 的 时 间 仅 仅 只 占 总 时 间 的 6% 左右 )。 收 益 递 减 规律 逐渐 凸显 出 来 : 虽然 应 用 程 
序 可 以 通过 增加 内 存 的 方式 提升 吞吐 量 ， 不 过 其 效果 已 经 很 有 限 了 。 


堆 的 大 小 达到 4500 MB 后 ， 吞 吐 量 开始 出 现 少量 下 请。 这 时 ， 应 用 程序 面临 着 第 二 个 选 
择 : 增加 的 内 存 导致 GC 周期 愈加 元 长 ， 虽 然 它们 发 生 的 频率 小 得 多 ,但 这 些 超 长 的 GC 
周期 也 会 影响 系统 整体 的 吞吐 量 。 
这 幅 图 中 的 数据 取 自 关闭 了 自 适应 调整 的 JVM， 它 的 最 大 、 最 小 堆 的 容量 设置 成 了 同样 的 大 
小 。 对 任何 一 种 应 用 ， 我 们 都 可 以 通过 实验 确定 堆 和 代 的 最 佳 大 小 ， 但 是 ， 让 JVM 自己 来 先 
择 通常 是 更 容易 的 方法 (这 也 是 最 通常 的 做 法 ， 因 为 默认 情况 下 自 适应 调整 就 是 开启 的 )。 
















































































股票 Servlet 应 用 的 吞吐 量 
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6-3: 使 用 不 同 大 小 的 堆 时 吞吐 量 的 变化 


为 了 达到 停顿 时 间 的 指标 ，Throughput 收集 器 的 自 适应 调整 会 重新 分 配 堆 (以 及 
代 ) 的 大 小 。 使 用 这 些 标志 可 以 设置 相应 的 性 能 指标 -XX:MaxGCPauseMillis=N 和 
-XX:GCTimeRatio=N, 


MaxGCPauseMillis 标志 用 于 设 定 应 用 可 承受 的 最 大 停顿 时 间 。 我 们 可 以 将 其 设置 为 6 或 者 
一 些 非常 小 的 值 ， 壁 如 59 毫秒 。 请 注意 ， 这 个 标志 设 定 的 值 同 时 影响 Minor GC 和 Full 
GC。 如 果 设 置 的 值 非常 小 ， 那 么 应 用 的 老年 代 最 终 就 会 非常 小 : 譬如 ， 你 设 定 该 参数 希望 
应 用 在 59 毫秒 内 完成 垃圾 回收 ， 这 将 会 触发 非常 频繁 的 Full GC， 对 应 用 程序 的 性 能 而 言 
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将 是 灾难 性 的 。 因 此 ， 设 定 该 值 时 ， 请 尽量 保持 理性 ， 将 该 值 设 定 为 可 达到 的 合理 值 。 缺 
省 情况 下 ， 我 们 不 设 定 该 参数 。 
GCTimeRatio 标志 可 以 设置 你 希望 应 用 程序 在 垃圾 回收 上 花费 多 少时 间 (与 应 用 线程 的 运 
行 时 间 相 比较 )。 它 是 一 个 百分比 ， 因 此 N 值 的 计算 稍微 有 些 复杂 。 将 入 值 代入 下 面 的 公 
式 可 以 计算 出 理想 情况 下 应 用 线程 的 运行 时 间 所 占 的 百分比 : 

1 
(1 + GCTimeRatio) 
GCTimeRatio 的 默认 值 是 99。 将 该 值 代入 公式 能 得 到 0.99， 这 意味 着 应 用 程序 的 运行 时 间 
占 总 时 间 的 99%， 只 有 1% 的 时 间 消 耗 在 垃圾 回收 上 。 但 是 ， 不 要 被 列 出 的 默认 值 搞 糊 涂 。 
壁 如 ，GCTimeRatio 设置 为 95 并 不 意味 着 会 使 用 总 时 间 的 5% 去 做 垃圾 回收 ， 它 表示 的 是 
最 多 会 使 用 总 时 间 的 1.94% 去 做 垃圾 回收 。 
先 确定 你 期 望 应 用 程序 线程 工作 的 时 间 ( 璧 如 95%)， 再 根据 下 面 这 个 公式 计算 
GCTimeRatio 是 一 个 更 容易 操作 的 方法 。 












































ThroughputGoal = 1 



































Throughput 
(1 一 Throughput) 


对 于 95% (0.95) 的 吞吐 量 目标 ， 利 用 该 公式 计算 出 的 GCTimeRatio 是 19。 


JVM 使 用 这 两 个 标志 在 堆 的 初始 值 (-xns) 和 最 大 值 (-xmx) 之 间 设 置 堆 的 大 小 。 
MaxGCPauseMiLLis 标志 的 优先 级 最 高 : 如 果 设 置 了 这 个 值 ， 新 生 代 和 老年 代 会 随 之 进行 调 
整 ， 直 到 满足 对 应 停顿 时 间 的 目标 。 一 旦 这 个 目标 达成 ， 堆 的 总 容量 就 开始 逐渐 增 大 ， 直 
到 运行 时 间 的 比率 达到 设 定 值 。 这 两 个 目标 都 达成 后 ，JVM 会 尝试 缩减 堆 的 大 小 ， 尽 可 能 
以 最 小 的 堆 大 小 来 满足 这 两 个 目标 。 


由 于 默认 情况 不 设置 停顿 时 间 目 标 ， 通 常 自动 堆 调整 的 效果 是 堆 (以 及 代 空 间 ) 的 大 小 会 持 
续 增 大 ， 直 到 满足 设置 的 GCTimeRatio 目标 。 不 过 ， 在 实际 操作 中 ， 该 标志 的 默认 设置 已 经 
相当 优化 了 。 每 个 人 的 使 用 经 验 各 有 不 同 ， 但 是 根据 我 以 往 的 经 验 ， 如 果 应 用 程序 在 垃圾 回 
收 上 消耗 总 时 间 的 3% 至 6%， 其 效果 会 是 相当 不 错 的 。 有 些 时 候 ， 我 甚至 会 在 内 存 严重 受 
限 的 环境 中 调 优 应 用 程序 的 性 能 ， 这 些 应 用 通常 会 在 垃圾 回收 上 消耗 10% 至 15% 的 时 间 。 
垃圾 回收 对 这 些 应 用 程序 的 性 能 影响 巨大 ， 不 过 整体 的 性 能 目标 还 是 能 够 达到 的 。 

因此 ， 依 据 应 用 程序 的 性 能 目标 ， 最 佳 的 配置 也 有 所 不 同 。 本 例 没 有 其 他 的 性 能 目标 ， 我 
从 时 间 百 分 比 19 (垃圾 收集 时 间 占 整个 时 间 的 5% 左右 ) 开始 。 

表 6-1 展示 的 是 一 个 应 用 ， 仅 需要 一 个 容量 较 小 的 堆 ， 也 很 少 做 GC (这 是 一 个 运行 在 
GlassFish 服务 器 上 的 股票 Servlet 程序 ， 它 不 保持 会 话 状态 ， 几 乎 没有 长 期 活跃 的 对 象 ) ， 


GCTimeRatio = 
































































































































使 用 动态 调整 后 的 效果 。 
表 6-1: 使 用 动态 GC 调整 的 效果 
垃圾 收集 参数 最 终 堆 的 大 小 ”垃圾 收集 时 间 所 占 百分比 OPS 
默认 值 649 MB 0.9% 9.2 
MaxGCPauseMillis=50ms 560 MB 1.0% 9.2 
Xms=Xmx = 2048m 2GB 0.04% 9.2 
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默认 情况 下 ， 堆 容量 的 最 小 值 是 64 MB ， 最 大 为 2 GB (因为 这 台 机 器 配备 了 8GB 的 物理 
内 存 )。 这 时 ，GCTimeRatio 就 如 我 们 预期 的 那样 工作 得 很 好 : 堆 的 容量 动态 地 调整 到 了 
649 MB ， 这 时 应 用 程序 在 垃圾 回收 上 只 花费 了 大 约 1% 的 总 运行 时 间 。 


在 这 个 例子 中 ， 如 果 设 置 了 MaxGCPauseMillis 参数 ，JVM 为 了 达到 停顿 时 间 的 目标 ， 这 之 
后 就 开始 逐步 减 小 堆 的 大 小 。 由 于 本 例 中 垃圾 收集 器 不 需要 做 太 多 的 工作 ， 扒 的 调整 进行 
得 很 顺利 ， 调 整 之 后 的 堆 仍 能 维持 只 消耗 1% 的 时 间 在 垃圾 回收 上 ， 同 时 保持 跟 之 前 同样 
9.2 次 每 秒 (OPS) 的 吞吐 量 


最 后 你 会 发 现 堆 并 不 是 越 大 越 好 一 一 使 用 大 小 为 2 GB 的 堆 可 以 减少 应 用 程序 在 垃圾 回收 上 
消耗 的 时 间 ， 但 是 这 个 例子 中 垃圾 回收 并 不 是 影响 性 能 的 决定 性 因素 ， 因 此 也 无 法 提高 程 
序 的 吞吐 量 。 正 如 之 前 提 到 的 ， 在 错误 的 方向 上 投注 精力 进行 优化 无 法 提升 应 用 的 性 能 。 
同样 的 应 用 程序 ， 如 果 改 变 了 行为 ， 需 要 保持 每 个 用 户 前 50 个 请 求 的 会 话 状态 ， 垃 圾 收 
集 器 的 工作 量 就 会 大 大 增加 。 表 6-2 展示 了 这 种 情况 下 的 取舍 。 

表 6-2: 动态 调整 的 效果 










































































垃圾 收集 参数 最 终 堆 的 大 小 ”垃圾 收集 时 间 所 占 百分比 OPS 
默认 值 1.7 GB 9.3% 8.4 
MaxGCPauseMillis=50ms 588 MB 15.1% T9 
Xms=Xmx=2048m 2GB 5.1% 9.0 
Xms=356Q0m; MaxGCRatio=19 2.1 GB 8.8% 9.0 





如 果 测 试 中 应 用 程序 消耗 了 大 量 的 时 间 在 垃圾 回收 上 ， 情 况 就 不 一 样 了 。 这 时 ，JVM 将 无 
法 达到 设 定 的 吞吐 量 目标 ， 即 只 花 总 运行 时 间 的 1% 在 垃圾 回收 上 ， 它 会 拼命 地 尝试 各 种 
途径 来 达到 设 定 的 目标 ， 最 终 使 用 的 堆 空间 为 1.7 GB。 

如 果 设 定 的 停顿 时 间 目 标 不 切实 际 ， 情 况 会 更 糟 。 为 了 让 垃圾 收集 的 时 间 控 制 在 50 毫秒 
以 内 ， 我 们 需要 将 堆 的 大 小 保持 在 588 MB 以 下 ,但 这 又 意味 着 垃圾 收集 的 频率 变 得 过 于 
频 和 党 。 最 终 ， 应 用 程序 的 吞吐 量 会 因此 显著 降低 。 这 种 情况 下 ， 让 JVM 使 用 整个 堆 的 容 
量 ， 即 将 堆 的 初始 值 和 最 大 值 都 设置 成 2 GB 能 获得 更 好 的 性 能 。 

最 终 ， 我 们 通过 努力 将 堆 的 大 小 设置 得 比较 合理 ， 将 时 间 比 率 目 标 也 设置 得 比较 现实 
(5%)， 表 的 最 后 一 行 展示 了 这 时 的 结果 。JVM 通过 自身 的 计算 确定 了 2 GB 是 最 优 的 堆 大 
小 ， 达 到 了 设 定 的 吞吐 量 目 标 ， 这 与 手工 调整 的 效果 几乎 一 致 。 


快速 小 结 

1. 采用 动态 调整 是 进行 堆 调 优 极 好 的 入 手 点 。 对 很 多 的 应 用 程序 而 言 ， 采 

用 动态 调整 就 已 经 足够 ， 动 态 调 整 的 配置 能 够 有 效 地 减少 JVM 的 内 存 
使 用 。 

2. 静态 地 设置 堆 的 大 小 也 可 能 获得 最 优 的 性 能 。 设 置 合 理 的 性 能 目标 ， 让 
JVM 根据 设置 确定 堆 的 大 小 是 学 习 这 种 调 优 很 好 的 入 门 课程 。 
























































6.2 ”理解 CMS 收集 器 


CMS 收集 器 有 3 种 基本 的 操作 ， 分 别 是 


。 CMS 收集 器 会 对 新 生 代 的 对 象 进行 回收 (所 有 的 应 用 线程 都 会 被 暂停 ) ; 
。 CMS 收集 器 会 启动 一 个 并 发 的 线程 对 老年 代 空间 的 垃圾 进行 回收 ; 
。 如 果 有 必要 ，CMS 会 发 起 Full GC。 


图 6-4 展示 了 使 用 CMS 回收 新 生 代 的 情况 。 
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6-4: 使 用 CMS 收集 器 回收 新 生 代 空间 


CMS 收集 器 的 新 生 代 垃圾 收集 与 Throughput 收集 器 的 新 生 代 垃圾 收集 非常 相似 : 对 象 
从 Eden 空间 移动 到 Survivor 空间 ， 或 者 移动 到 老年 代 空 间 。CMS 收集 的 GC 日 志 也 非 





常 相似 : 


89.853: [GC 89.853: [ParNew: 629120K->69888K(629120K), 0.1218970 secs] 
1303940K->772142K(2027264K) ，0.1220090 secs] 
[Times: user=0.42 sys=0.02, real=0.12 secs] 


这 时 的 新 生 代 空间 大 小 为 629 MB; 垃圾 回收 之 后 变 成 了 69 MB (位 于 Survivor 空间 )。 与 
Throughput 收集 器 的 日 志 类 似 ， 整 个 堆 的 大 小 为 2027 MB ， 其 中 772 MB 在 垃圾 回收 之 后 
依然 被 占用 。 虽 然 并 行 的 GC 线程 使 用 了 0.42 秒 的 CPU 时 间 ， 但 整个 垃圾 回收 过 程 仅 耗 




















时 0.12 秒 。 并 发 的 垃圾 回收 周期 如 图 6-5 所 示 。 


JVM 会 依据 扒 的 使 用 情况 启动 并 发 回收 。 当 堆 的 占用 达到 某 个 程度 时 ，JVM 会 启动 后 台 
线程 扫描 堆 ， 回 收 不 用 的 对 象 。 扫 描 结 束 的 时 候 ， 堆 的 状况 就 像 这 幅 图 中 最 后 一 列 所 描述 
的 情况 一 样 。 请 注意 ， CMS 回收 器 ， 老 年 代 空间 不 会 进行 压缩 整理 : 老年 代 空 







































































间 由 已 经 分 配对 象 的 空 间 和 空空 间 共同 组 成 。 新 生 代 垃 圾 收集 将 对 象 由 Eden 空间 挪 到 
老年 代 空间 时 ，JVM 会 i 内 的 空间 来 保存 这 些 晋 升 的 对 象 。 
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6-5: 由 CMS 收集 器 完成 的 并 发 垃圾 收集 


通过 GC 日 志 ， 我 们 看 到 回收 过 程 划分 成 了 好 几 个 阶段 。 虽 然 主 要 的 并 发 回收 〈Concurrent 
Cycle) 阶段 都 使 用 后 台 线 程 进行 工作 ， 有 些 阶段 还 是 会 暂停 所 有 的 应 用 线程 ， 并 因此 引入 
短暂 的 停顿 。 

并 发 回收 由 “初始 标记 ”阶段 开始 ， 这 个 阶段 会 暂停 所 有 的 应 用 程序 线程 : 


89.976: [GC [1 CMS-initial-mark: 702254K(1398144K)] 
772530K(2027264K) ，0.0830120 secs] 
[Times: user=0.08 sys=0.00, real=0.08 secs] 


这 个 阶段 的 主要 任务 是 找到 堆 中 所 有 的 垃圾 回收 根 节点 对 象 。 从 第 一 组 数据 中 可 以 看 到 这 
个 例子 中 对 象 占用 了 老年 代 空间 1398 MB 中 的 702 MB 空间 。 第 二 组 数据 显示 整个 堆 的 
大 小 为 2027 MB， 其 中 772 MB 被 占用 。 应 用 程序 线程 在 这 个 CMS 回收 周期 中 被 暂停 了 
0.08 秒 。 


下 一 个 阶段 是 “标记 阶段 "， 这 个 阶段 中 应 用 程序 线程 可 以 持续 运行 ， 不 会 被 中 断 。GC 日 
志 中 ， 这 个 阶段 的 标识 如 下 : 
90.059: [CMS-concurrent-mark-start] 


90.887: [CMS-concurrent-mark: 0.823/0.828 secs] 
[Times: user=1.11 sys=0.00, real=0.83 secs] 


标识 阶段 耗 时 0.83 秒 (以 及 1.11 秒 的 CPU 时 间 )。 由 于 这 个 阶段 进行 的 工作 仅仅 是 标记 ， 
不 会 对 堆 的 使 用 情况 产生 实质 性 的 改变 ， 所 以 没有 任何 相关 的 数据 输出 。 如 果 这 个 阶段 还 
有 数据 和 输出， 很 可 能 是 由 于 这 0.83 秒 内 新 生 代 对 象 的 分 配 导 致 了 堆 的 增长 ， 因 为 应 用 程序 
线程 还 在 持续 运行 着 。 

然后 是 “ 预 清理 ”阶段 ， 这 个 阶段 也 是 与 应 用 程序 线程 的 运行 并 发 进行 的 : 


90.887: [CMS-concurrent-preclean-start] 
90.892: [CMS-concurrent-preclean: 0.005/0.005 secs] 
[Times: user=0.01 sys=0.00, real=0.01 secs] 


接 下 来 的 是 “重新 标记 ”阶段 ， 这 个 阶段 涵盖 了 多 个 操作 : 
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90.892: [CMS-concurrent-abortabLe-precLean-start] 

92.392: [GC 92.393: [ParNew: 629120K->69888K(629120K) ，0.1289040 secs] 
1331374K->803967K(2027264K) ，0.1290200 secs] 
[Times: user=0.44 sys=0.01, real=0.12 secs] 

94.473: [CMS-concurrent-abortable-preclean: 3.451/3.581 secs] 
[Times: user=5.03 sys=0.03, real=3.58 secs] 


94.474: [GC[YG occupancy: 466937 K (629120 K)] 
94.474: [Rescan (parallel) , 0.1850000 secs] 
94.659: [weak refs processing, 0.0000370 secs] 
94.659: [scrub string table, 0.0011530 secs] 
[1 CMS-remark: 734079K(1398144K)] 
1201017K(2027264K) ，0.1863430 secs] 
[Times: user=0.60 sys=0.01, real=0.18 secs] 


且慢 ，CMS 收集 不 是 只 执行 一 次 预 清理 阶段 吗 ? 这 个 “可 中 断 预 清理”(abortable preclean) 
阶段 是 做 什么 的 呢 ? 

使 用 可 中 断 预 清理 阶段 是 由 于 标记 阶段 (严格 说 起 来 ， 它 应 该 是 最 后 的 输出 项 ) 不 是 并 发 
的 ， 所 有 的 应 用 线程 进入 标记 阶段 后 都 会 被 暂停 。 如 果 新 生 代 收 集 刚刚 结束 ， 紧 接着 就 是 
一 个 标记 阶段 的 话 ， 应 用 线程 会 遭遇 2 次 连续 的 停顿 操作 ，CMS 收集 器 希望 避免 这 样 的 情 
况 发 生 。 使 用 可 中 断 预 清理 阶段 的 目的 就 是 希望 尽量 缩短 停顿 的 长 度 ， 避 免 连 续 的 停顿 。 
因此 ， 可 中 断 预 请 理 阶段 会 等 到 新 生 代 空 间 占用 到 50% 左右 时 才 开始 。 理 论 上 ， 这 时 离 下 
一 次 新 生 代 收 集 还 有 半 程 的 距离 ， 给 了 CMS 收集 堪 最 好 的 机 会 避免 发 生 连 续 停顿 。 这 个 
例子 中 ， 可 中 断 预 清理 阶段 在 90.8 秒 开 始 ， 等 待 常 规 的 新 生 代 收 集 开 始 花 了 1.5 秒 (根据 
日 志 的 记录 ，92.392 秒 开始 ) 。CMS 收集 器 根据 以 往 的 历史 记录 推算 下 一 次 新 生 代 垃圾 收 
集 可 能 持续 的 时 间 。 这 个 例子 中 ，CMS 收集 器 计算 出 的 时 长 大 约 是 4.2 秒 。 所 以 2.1 秒 之 
后 ( 即 94.4 秒 )，CMS 收集 器 停止 了 预 清理 阶段 (这 种 行为 被 称 为 “放弃 ”了 这 次 回收 ， 
不 过 这 可 能 是 唯一 能 停止 该 次 回收 的 方式 )。 这 之 后 ，CMS 回收 器 终于 开始 了 标记 阶段 的 
工作 执行 ， 标 记 阶 段 的 回收 工作 将 应 用 程序 线程 暂停 了 0.18 秒 (在 可 中 断 预 清理 过 程 中 ， 
应 用 程序 线程 不 会 被 暂停 )。 


接 下 来 是 另 一 个 并 发 阶段 一 一 清除 (sweep) 阶段 : 


94.661: [CMS-concurrent-sweep-start] 

95.223: [GC 95.223: [ParNew: 629120K->69888K(629120K) ，0.1322530 secs] 
999428K->472094K(2027264K) ，0.1323690 secs] 
[Times: user=0.43 sys=0.00, real=0.13 secs] 

95.474: [CMS-concurrent-sweep: 0.680/0.813 secs] 
[Times: user=1.45 sys=0.00, real=0.82 secs] 


这 个 阶段 耗 时 0.82 秒 ， 回 收 线程 与 应 用 程序 线程 并 发 运行 。 碰 巧 这 次 的 并 发 - 清除 过 程 被 
新 生 代 垃圾 回收 中 断 了 。 新 生 代 垃圾 回收 与 清除 阶段 并 没有 直接 的 联系 ， 将 这 个 例子 保留 
在 这 里 是 为 了 说 明 新 生 代 的 垃圾 收集 与 老年 代 的 垃圾 收集 可 以 并 发 进行 。 从 图 6-5 中 可 以 
看 到 ， 新 生 代 的 状态 在 并 发 收集 的 过 程 中 发 生 了 变化 一 一 清除 过 程 中 新 生 代 可 能 发 生 了 多 
次 垃圾 收集 〈 至 少 发 生 了 一 次 新 生 代 垃 圾 收集 ， 因 为 可 中 断 的 预 清 理 至 少 会 经 历 一 次 新 生 


































































































































































































注 1: 此 处 原文 可 能 有 误 。 根 据 新 生 代 垃 圾 收集 器 的 历史 能 得 到 的 应 该 是 新 生 代 垃 圾 收集 的 持续 时 间 ， 而 非 
准确 的 什么 时 候 发 生 。 一 一 译 者 注 
































垃圾 收集 算法 | 111 





代 垃 圾 收集 )。 
接 下 来 是 并 发 重 置 (concurrent reset) 阶段 : 


95.474: [CMS-concurrent-reset-start] 
95.479: [CMS-concurrent-reset: 0.005/0.005 secs] 
[Times: user=0.00 sys=0.00, real=0.00 secs] 


这 是 并 发 运行 的 最 后 一 个 阶段 ，CMS 垃圾 回收 的 周期 至 此 告终 ， 老 年 代 空间 中 没有 被 引 
用 的 对 象 被 回收 (此 时 堆 的 状况 如 图 6-5 所 示 )。 遗 憾 的 是 ， 我 们 无 法 从 日 志 中 了 解 到 底 
有 多 少 对 象 被 回收 ， 重 置 阶段 的 日 志 也 没有 提供 更 多 的 信息 ， 最 后 还 有 多 少 堆 空 间 被 占 
用 不 得 而 知 。 为 了 发 据 这 些 信 息 ， 我 们 尝试 从 新 生 代 垃 圾 收集 日 志 中 找到 一 些 蛛丝马迹 ， 
如 下 所 示 : 


98.049: [GC 98.049: [ParNew: 629120K->69888K(629120K) ，0.1487040 secs] 
1031326K->504955K(2027264K) ，0.1488730 secs] 


与 89.853 秒 时 〈 即 CMS 回收 周期 开始 之 前 ) 老年 代 空 间 的 占用 情况 相 比较 ， 那 时 的 空间 
占用 大 约 是 703 MB (整个 堆 的 占用 为 772 MB， 其 中 包含 69 MB 的 Survivor 空间 占用 ， 
因此 老年 代 占 用 了 剩 下 的 703 MB ) 。 到 98.049 秒 ， 垃 圾 收集 结束 ， 老 年 代 空 间 占 用 大 约 为 
504 MB ， 由 此 可 以 计算 出 CMS 周期 回收 了 大 约 199 MB 的 内 存 。 

如 果 一 切 顺 利 ， 这 些 就 是 CMS 垃圾 回收 会 经 历 的 周期 ， 以 及 所 有 可 能 出 现在 CMS 垃圾 
收集 日 志 中 的 消息 。 不 过 ， 事实 并 不 是 这 么 简单 ， 我 们 还 需要 查看 另外 三 种 消息 ， 出 现 
这 些 日 志 表 明 CMS 垃圾 收集 碰 到 了 麻烦 。 首 当 其 冲 的 是 并 发 模式 失效 (concurrent mode 


failure) 






























































267.006: [GC 267.006: [ParNew: 629120K->629120K(629120K) ，0.0000200 secs] 
267.006: [CMS267.350: [CMS-concurrent-mark: 2.683/2.804 secs] 
[Times: user=4.81 sys=0.02, real=2.80 secs] 
(concurrent mode failure): 
1378132K->1366755K(1398144K) ，5.6213320 secs] 
2007252K->1366755K(2027264K)， 
[CMS Perm : 57231K->57222K(95548K)], 5.6215150 secs] 
[Times: user=5.63 sys=0.00, real=5.62 secs] 


新 生 代 发 生 垃 圾 回收 ， 同 时 老年 代 又 没有 足够 的 空间 容纳 晋升 的 对 象 时 ，CMS 垃圾 回收 就 
会 退化 成 Full GC。 所 有 的 应 用 线程 都 会 被 暂停 ， 老 年 代 中 所 有 的 无 效 对 象 都 被 回收 ， 释 
放空 间 之 后 老年 代 的 占用 为 1366 MB 一 一 这 次 操作 导致 应 用 程序 线程 停顿 长 达 5.6 秒 。 这 
个 操作 是 单线 程 的 ， 这 就 是 为 什么 它 耗 时 如 此 之 长 的 原因 之 一 〈 这 也 是 为 什么 发 生 并 发 模 
式 失效 比 堆 的 增长 更 加 恶劣 的 原因 之 一 )。 


第 二 个 问题 是 老年 代 有 足够 的 空间 可 以 容纳 晋升 的 对 象 ， 但 是 由 于 空闲 空间 的 碎片 化 ， 导 
致 晋升 失败 : 


6043.903: [GC 6043.903: 
[ParNew (promotion failed): 614254K->629120K(629120K), 0.1619839 secs] 
6044.217: [CMS: 1342523K->1336533K(2027264K) ，30.7884210 secs] 
2004251K->1336533K(1398144K)， 
[CMS Perm : 57231K->57231K(95548K)] 28.1361340 secs] 
[Times: user=28.13 sys=0.38, real=28.13 secs] 























在 这 个 例子 中 ，CMS 局 动 了 新 生 代 垃圾 收集 ， 判 断 老年 代 似乎 有 足够 的 空闲 空间 可 以 容纳 
所 有 的 晋升 对 象 《否则 ，CMS 收集 器 会 报告 发 生 并 发 模式 失效 )。 这 个 假设 最 终 被 证 明 是 
错误 的 : 由 于 老年 代 空间 的 碎片 化 (或 者 ， 不 太 贴 切 地 说 ， 由 于 晋升 实际 要 占用 的 内 存 超 
过 了 CMS 收集 器 的 判断 )，CMS 收集 器 无 法 晋升 这 些 对 象 。 


因此 ，CMS 收集 器 在 新 生 代 垃 圾 收集 过 程 中 〈 所 有 的 应 用 线程 都 被 暂停 时 ) ， 对 整个 老年 
代 空 间 进行 了 整理 和 压缩 。 好 消息 是 ， 随 着 堆 的 压缩 ， 碎 片 化 问题 解决 了 (至少 在 短期 内 
不 是 问题 了 )。 不 过 随 之 而 来 的 是 长 达 28 秒 的 元 长 的 停顿 时 间 。 由 于 需要 对 整个 堆 进 行 整 
理 ， 这 个 时 间 甚 至 比 CMS 收集 器 遭遇 并 发 模式 失效 的 时 间 还 长 的 多 ， 因 为 发 生 并 发 模式 
失效 时 ，CMS 收集 器 只 需要 回收 堆 内 无 用 的 对 象 。 这 时 的 堆 就 像 刚 由 Throughput 收集 器 
做 完 Full GC 一样 (如 图 6-2) : 新 生 代 空间 完全 空间 ， 老 年 代 空 间 也 已 经 整理 过 。 


最 终 ，CMS 收集 的 日 志 中 可 能 只 有 一 条 Full GC 的 记录 ， 不 含 任何 常规 并 发 垃圾 回收 的 日 志 。 


279.803: [Full GC 279.803: 
[CMS: 88569K->68870K(1398144K), 0.6714090 secs] 
558070K->68870K(2027264K)， 
[CMS Perm : 81919K->77654K(81920K)], 
0.6716570 secs] 


永久 代 空 间 用 尽 ， 需 要 回收 时 ， 就 会 发 生 这 样 的 状况 ， 应 注意 到 ，CMS 收集 后 永久 代 

空间 大 小 减 小 了 。Java 8 中 ， 如 果 元 空间 需要 调整 ， 也 会 发 生 同 样 的 情况 。 默 认 情况 下 ， 
CMS 收集 器 不 会 对 永久 代 (或 元 空间 ) 进行 收集 ， 因 此 ， 它 一 旦 被 用 尽 ， 就 需要 进行 
Full GC， 所 有 没有 被 引用 的 类 都 会 被 回收 。CMS 高 级 调 优 一 节 会 有 针对 性 地 介绍 如 何 
解决 这 种 问题 。 


快速 小 结 

1. CMS 垃圾 回收 有 多 个 操作 ， 但 是 期 望 的 操作 是 Minor GC 和 并 发 回收 
(concurrent cycle)。 

2. CMS 收集 过 程 中 的 并 发 模式 失效 以 及 晋升 失败 的 代价 都 非常 昂贵 ， 我 们 
应 该 尽量 调 优 CMS 收集 器 以 避免 发 生 这 些 情 况 。 

3. 默认 情况 下 CMS 收集 器 不 会 对 永久 代 进 行 垃圾 回收 。 


6.2.1 针对 并 发 模式 失效 的 调 优 


调 优 CMS 收集 器 时 最 要 紧 的 工作 就 是 要 避免 发 生 并 发 模式 失效 以 及 晋升 失败 。 正 如 我 们 
在 CMS 垃圾 收集 日 志 中 看 到 的 那样 ， 发 生 并 发 模式 失效 往往 是 由 于 CMS 不 能 以 足够 快 的 
速度 清理 老年 代 空 间 : 新 生 代 需要 进行 垃圾 回收 时 ，CMS 收集 器 计算 发 现 老年 代 没 有 足够 
的 空间 空间 可 以 容纳 这 些 晋 升 对 象 ， 不 得 不 先 对 老年 代 进行 垃 圾 回收 。 


初始 时 老年 代 空间 中 对 象 是 一 个 接 一 个 整齐 有 序 排列 的 。 当 老年 代 空间 的 占用 达到 某 个 程 
度 (默认 值 为 70%) 时 ， 并 发 回收 就 开始 了 。 一 个 CMS 后 台 线 程 开 始 扫 描 老 年 代 空间 ， 
寻找 无 用 的 垃圾 对 象 时 ， 竞 争 就 开始 了 : CMS 收集 器 必须 在 老年 代 剩余 的 空间 (30%) 用 
尽 之 前 ， 完 成 老年 代 空间 的 扫描 及 回收 工作 。 如 果 并 发 回收 在 这 场 速 度 的 比赛 中 失利 ， 
CMS 收集 器 就 会 发 生 并 发 模式 失效 。 
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有 以 下 途径 可 以 避免 发 生 这 种 失效 。 

。 想 办 法 增 大 老年 代 空 间 ， 要 么 只 移动 部 分 的 新 生 代 对 象 到 老年 代 ， 要 么 增加 更 多 的 堆 
空间 。 

。 以 更 高 的 频率 运行 后 台 回 收 线程 。 

。 使 用 更 多 的 后 台 回收 线程 。 























自 适 应 调 优 和 CMS 垃圾 搜集 
CMS 收集 器 使 用 两 个 配置 MaxGCPauseMllis=N 和 GCTimeRatio=N 来 确定 使 用 多 大 的 堆 和 
多 大 的 代 空 间 。 
CMS 收集 与 其 他 的 垃圾 收集 方法 一 个 显著 的 不 同 是 除非 发 生 Full GC， 否 则 CMS 的 新 
生 代 大 小 不 会 作 调 整 。 由 于 CMS 的 目标 是 尽量 避免 Full GC， 这 意味 着 使 用 精细 调 优 的 
CMS 收集 器 的 应 用 程序 永远 不 会 调整 它 的 新 生 代 大 小 。 
程序 启动 时 可 能 频 发 并 发 模式 失效 ， 因 为 CMS 收集 器 需要 调整 堆 和 永久 代 (或 者 元 空 
间 ) 的 大 小 。 使 用 CMS 收集 器 ， 初 始 时 采用 一 个 比较 大 的 堆 (以 及 更 大 的 永久 代 / 元 
空间 ) 是 一 个 很 好 的 主意 ， 这 是 一 个 特例 ， 增 大 堆 的 大 小 反而 帮助 避免 了 那些 失效 。 











如 果 有 更 多 的 内 存 可 用 ， 更 好 的 方案 是 增加 堆 的 大 小 ， 否 则 可 以 尝试 调整 后 台 线 程 运 行 的 
方式 来 解决 这 个 问题 。 

1. 给 后 台 线 程 更 多 的 运行 机 会 

为 了 让 CMS 收集 器 赢得 这 场 比赛 ， 方 法 之 一 是 更 早 地 启动 并 发 收集 周期 。 显 然 地 ，CMS 
收集 器 在 老年 代 空间 占用 达到 60% 时 局 动 并 发 周期 ， 这 和 老年 代 空 间 占 用 到 70% 时 才 启 
动 相 比 ， 前 者 完成 垃圾 收集 的 几率 更 大 。 为 了 实现 这 种 配置 ， 最 简单 的 方法 是 同时 设置 
下 面 这 两 个 标志 : -XX:CMSInitiatingOccupancyFraction=N 和 -XX:+UseCMSInitiatingOcc 
upancyonly。 同时 使 用 这 两 个 参数 能 帮助 CMS 更 容易 地 进行 决策 : 如 果 同 时 设置 这 两 个 
标志 ， 那 么 CMS 就 只 依据 设置 的 老年 代 空间 占用 率 来 决定 何 时 启动 后 台 线 程 。 默 认 情 况 
下 ，UseCMsInitiatingOccupancyonly 标志 的 值 为 假 ，CMS 会 使 用 更 复杂 的 算法 判断 什么 
时 候 启 动 并 行 收集 线程 。 如 果 有 必要 提前 启动 后 台 线 程 ， 推 荐 使 用 最 简单 的 方法 ， 即 将 
UseCMSInitiatingOccupancyOnly 标志 的 值 设置 为 真 。 
CMSInitiating0ccupancyFraction 参数 值 的 调整 可 能 需要 多 次 迭 代 才 能 确定 。 如 果 开 启 了 
UseCMSInitiatingOccupancyOnly 标志 ，CMSInitiatingOccupancyFraction 的 默认 值 就 被 置 
为 70, 即 CMS 会 在 老年 代 空 间 占 用 达到 70% 时 局 动 并 发 收集 周期 。 


对 特定 的 应 用 程序 ， 该 标志 的 更 优 值 可 以 根据 GC 日 志 中 CMS 周期 首次 启动 失败 时 的 值 
得 到 。 具 体 方法 是 ， 在 垃圾 回收 日 志 中 寻找 并 发 模式 失效 ， 找 到 后 再 反 向 查找 CMS 周期 
最 近 的 启动 记录 。 日 志 中 含有 CMS-initial-mark 信息 的 一 行 包含 了 CMS 周期 启动 时 ， 老 年 
代 空 间 的 占用 情况 如 下 所 示 : 

89.976: [GC [1 CMS-initial-mark: 702254K(1398144K)] 


772530K(2027264K) ，0.0830120 secs] 
[Times: user=0.08 sys=0.00, real=0.08 secs] 




















在 这 个 例子 中 ， 根 据 日 志 的 输出 ， 我 们 可 以 判断 该 时 刻 老 年 代 空 间 的 占用 率 为 50% 
(老年 代 空 间 大 小 为 1398 MB， 其 中 702 MB 被 占用 )。 不 过 这 个 值 还 不 够 早 ， 因 
此 我 们 需要 调整 CMSInitiatingoccupancyFraction 将 其 值 设 定 为 小 于 5S$0 的 革 个 值 。 
(虽然 CMSInitiatingOccupancyFraction 的 默认 值 为 70, 不 过 这 个 例子 中 没有 开启 
UseCMsInitiatingoccupancyonly 标志 ， 所 以 例子 中 CMS 收集 器 在 老年 代 空间 占用 达到 
50% 时 启动 了 CMS 后台 线程 。) 


了 解 了 CMsInitiatingOccupancyFraction 的 工作 原理 之 后 ， 你 可 能 会 有 疑问 ， 我 们 能 不 能 
将 参数 值 设置 为 0 或 者 其 他 比较 小 的 值 ， 让 CMS 的 后 台 线 程 持 续 运 行 。 通 常 我 们 不 推荐 
进行 这 样 的 设置 ， 但 是 ， 如 果 你 对 其 中 的 取 低 非常 了 解 ， 适 当地 妥协 也 是 可 以 接受 的 。 


这 其 中 的 第 一 个 取 侈 源 于 CPU: CMS 后 台 线 程 会 持续 运行 ， 它 们 会 消耗 大 量 的 CPU 时 
钟 一 一 每 个 CMS 后 台 线 程 运行 时 都 会 100% 地 占用 一 颗 CPU。 多 个 CMS 线程 同时 运行 时 
还 会 有 短暂 的 爆发 ， 机 器 的 总 CPU 使 用 因此 也 会 暴涨 。 如 果 这 些 线程 都 是 毫 无 目的 地 持 
续 运行 ， 只 会 白白 浪费 宝贵 的 CPU 资源 。 

另 一 方面 ， 这 并 不 是 说 使 用 了 过 多 的 CPU 周期 就 是 问题 。 后 台 的 CMS 线程 需要 时 必须 运 
行 ， 即 使 在 最 好 的 情况 下 ， 这 也 是 很 难 避 免 的 。 因 此 ， 机 器 必须 预 留 足够 的 CPU 周期 来 
运行 这 些 CMS 线程 。 所 以 规划 机 器 时 ， 你 必须 考虑 留 出 余 量 给 这 部 分 CPU 的 使 用 。 


CMS 周期 中 ， 如 果 CMS 后 台 线 程 没 有 运行 ， 这些 CPU 时 钟 可 以 用 于 运行 其 他 的 应 用 吗 ? 
通常 不 会 。 如 果 还 有 另 一 个 应 用 也 在 使 用 同一 个 时 钟 周期 ， 它 没有 途径 了 解 何 时 CMS 线 
程 会 运行 。 因此， 应 用 程序 线程 和 CMS 线程 会 竞争 CPU 资源 ， 而 这 很 可 能 会 导致 CMS 
线程 的 “失速 ”(lose its race)。 有 些 时 候 ， 通 过 复杂 的 操作 系统 调 优 ， 有 可 能 让 应 用 线程 
以 低 于 CMS 线程 优先 级 的 方式 让 两 种 线程 在 同一 个 时 钟 周期 内 运行 ， 但 是 这 些 方法 都 相 
当 复杂 ， 很 容易 出 错 。 因 此 ， 答 案 是 肯定 的 ，CMS 周期 运行 得 越 频繁 ，CPU 周期 越 长 ， 
如 果 不 这 样 ， 这 些 CPU 周期 就 是 空闲 状态 (idle) 。 


第 二 个 取舍 更 加 重要 ， 它 与 应 用 程序 的 停顿 相关 。 正 如 我 们 在 GC 日 志 中 观察 到 的 ，CMS 
在 特定 的 阶段 会 暂停 所 有 的 应 用 线程 。 使 用 CMS 收集 器 的 主要 目的 就 是 要 限制 GC 停顿 
的 影响 ， 因 此 频繁 地 运行 更 多 无 效 的 CMS 周期 只 能 适得其反 。CMS 停顿 的 时 间 与 新 生 代 
的 停顿 时 间 比 起 来 要 短 得 多 ， 应 用 线程 甚至 可 能 感受 不 到 这 些 额外 的 停顿 一 一 这 也 是 一 种 
取舍， 我 们 是 要 避免 额外 的 停顿 还 是 要 减少 发 生 并 发 模式 失败 的 几率 。 不 过 ， 正 如 我 们 前 
面 提 到 的 ， 持 续 地 运行 后 台 GC 线程 所 造成 的 停顿 可 能 会 导致 总 体 的 停顿 ， 而 这 最 终 会 降 
低 应 用 程序 的 性 能 。 

除非 这 些 取 舍 都 能 接受 ， 否 则 不 要 将 CMSInitiating0ccupancyFraction 参数 的 值 设置 得 比 
堆 内 的 活跃 数据 数 还 多 ， 至 少 要 少 10% 到 20%。” 

2. 调整 CMS 后 台 线 程 


每 个 CMS 后 台 线 程 都 会 100% 地 占用 机 器 上 的 一 颗 CPU。 如 果 应 用 程序 发 生 并 发 模式 失效 ， 
同时 又 有 额外 的 CPU 周期 可 用 ， 可 以 设置 -XX:ConcGCThreads=W 标 志 ， 增 加 后 台 线 程 的 数 










































































































































































注 2: 原文 可 能 有 误 ，CMSInitiating0ccupancyFraction 应 该 设置 得 比 活跃 数据 小 才能 提前 触发 CMS 周 
明 。 译 者 注 
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目 。 默 认 情 况 下 ，ConcGCThreads 的 值 是 依据 ParaLLeLGCThreads 标志 的 值 计算 得 到 的 : 
ConcGCThreads = (3 + ParallelGCThreads) / 4 


上 述 计算 使 用 整数 计算 方法 ， 这 意味 着 如 果 ParallelGcThreads 的 取 值 区 间 在 1 到 4， 
ConcGCThread 的 值 就 为 1， 如 果 ParaLLeLGCThreads 的 取 值 在 5 到 8 之 间 ，ConcGCThreads 
的 值 就 为 2， 以 此 类 推 。 

调整 这 一 标志 的 要 点 在 于 判断 是 否 有 可 用 的 CPU 周期 。 如 果 ConcGCThreads 标志 值 设置 的 
偏 大 ， 垃 圾 收集 会 占用 本 来 能 用 于 运行 应 用 线程 的 CPU 周期 最终 效果 上 ， 这 种 配置 会 
导致 应 用 程序 些微 的 停顿 ， 因 为 应 用 程序 线程 需要 等 待 再 次 在 CPU 上 继续 运行 的 机 会 。 


除 此 之 外 ， 在 一 个 配备 了 大 量 CPU 的 系统 上 ，ConcGCThreads 参数 的 默认 值 可 能 偏 大 。 如 
果 没 有 频 繁 遭遇 并 发 模式 失败 ， 可 以 考虑 减少 后 台 线 程 数 ， 释 放 这 部 分 CPU 周期 用 于 应 
用 线程 的 运行 。 


快速 小 结 

1， 避 免 发 生 并 发 模式 失效 是 提升 CMS 收集 器 处 理 能 力 、 获 得 高 性 能 的 关键 。 

2. 避免 并 发 模式 失效 (如果 有 可 能 的 话 ) 最 简单 的 方法 是 增 大 堆 的 容量 。 

3 否则， 我 们 能 进行 的 下 一 个 步骤 就 是 通过 调整 CMSInitiatingOccupancy- 
Fraction 参数 ， 尽 早 启 动 并 发 后 台 线 程 的 运行 。 

4 另外， 调整 后 台 线 程 的 数目 对 解决 这 个 问题 也 有 帮助 。 


6.2.2 CMS 收集 器 的 永久 代 调 优 


从 例子 的 CMS 垃圾 收集 日 志 中 我 们 发 现 ， 如 果 永 久 代 需要 进行 垃圾 收集 ， 就 会 发 生 Full 
GC (如 果 元 空间 的 大 小 需要 调整 也 会 发 生 同 样 的 情况 )。 这 往往 发 生 在 程序 员 频 繁 部 署 
(或 者 重新 部 署 ) 应 用 的 服务 器 上 ， 或 者 发 生 在 需要 频繁 定义 〈 或 者 回收 ) 类 的 应 用 中 。 


默认 情况 下 ，Java7 中 的 CMS 垃圾 收集 线程 不 会 处 理 永和 久 代 中 的 垃圾 ， 如 果 永 和 久 代 
空间 用 尽 ，CMS 会 发 起 一 次 Full GC 来 回收 其 中 的 垃圾 对 象 。 除 此 之 外 ， 还 可 以 开启 
-XX:+CMSPermGenSweepingEnabled 标志 (默认 情况 下 ， 该 标志 的 值 为 false)， 开 启 后 ， 永 
入 代 中 的 垃圾 使 用 与 老年 代 同 样 的 方式 进行 垃圾 收集 : 通过 一 组 后 台 线 程 并 发 地 回收 永久 
代 中 的 垃圾 对 象 。 注 意 ， 触 发 永久 代 垃 圾 回收 的 指标 与 老年 代 的 指标 是 相互 独立 的 。 使 用 
-XX:CMSInitiatingPermOccupancyFraction=N 参数 可 以 指定 CMS 收集 器 在 永久 代 空 间 占 用 
比 达 到 设 定 值 时 启动 永久 代 垃 圾 回收 线程 ， 这 个 参数 的 默认 值 为 80%。 

不 过 ， 开 局 永久 代 垃 圾 收集 只 是 整个 流程 中 的 一 步 ， 为 了 真正 释放 不 再 被 引用 的 类 ， 我 们 
还 需要 设置 -XX:+CMSClassUnloadingEnabled 标志 。 人 否则 ， 即 使 启用 了 永和 久 代 垃圾 回收 也 只 
能 释放 少量 的 无 效 对 象 ， 类 的 元 数据 并 不 会 被 释放 。 由 于 永久 代 中 大 量 的 数据 都 是 类 的 元 
数据 ， 因 此 启动 CMS 永久 代 垃 圾 收集 时 ， 这 个 标志 同时 也 应 该 开局 。 

Java 8 中 ，CMS 收集 器 默认 就 会 收集 元 空间 中 不 再 载 入 的 类 。 如 果 由 于 某 些 原因 ， 你 希 
关闭 这 一 功能 ， 可 以 通过 -XX:-CMSClassUnloadingEnabled 标志 进行 关闭 (默认 情况 下 这 
标志 是 开启 的 ， 即 该 值 为 true)。 




























































































他 由 





6.2.3 增 量 式 CMS 垃圾 收集 

这 一 章 中 我 们 多 次 提 到 了 这 样 一 个 事实 : 为 了 进行 有 效 的 CMS 垃圾 收集 ， 需 要 消耗 额外 
的 CPU 处 理 资 源 。 如 果 你 只 有 一 个 单 CPU 的 机 器 ， 或 者 你 有 多 个 非常 忙碌 的 CPU， 但 是 
希望 使 用 低 延 迟 的 垃圾 收集 器 ， 这 时 有 什么 好 的 建议 呢 ? 









































增 量 式 CMS 垃圾 收集 在 Java 8 中 已 经 不 推荐 使 用 


增 量 式 CMS 垃圾 收集 (iCMS) 在 Java 8 中 已 经 不 推荐 使 用 了 ， 不 过 暂时 还 保留 在 其 
中 ,但 是 在 Java9 中 很 可 能 会 被 移 除 。 


使 用 增 量 式 CMS 垃圾 收集 的 主要 好 处 是 后 台 线 程 会 间 软 性 地 停顿 ， 让 出 一 部 分 CPU 给 
应 用 程序 线程 运行 ， 从 而 使 得 CMS 收集 器 即使 在 只 配备 了 有 限 CPU 资源 的 机 器 上 也 能 
运行 。 随 着 多 核 技术 的 发 展 ， 多 处 理 器 几乎 已 经 成 为 所 有 系统 的 标准 配置 ( 连 我 的 手机 
都 装载 了 4 核 的 CPU 芯片 )， 这 使 得 iCMS 存在 的 意义 变 得 不 再 那么 重要 。 

如 果 系 统 确实 只 配备 了 极其 有 限 的 CPU， 作为 替代 方案 ， 可 以 考虑 使 用 G1 收集 器 一 一 
因为 G1 收集 器 的 后 台 线 程 在 垃圾 收集 的 过 程 中 也 会 周期 性 地 暂停 ， 客 观 上 减少 了 与 应 
用 线程 竞争 CPU 资源 的 情况 。 














这 些 情况 下 ， 使 用 CMS 收集 器 进行 增 量 式 的 垃圾 收集 ， 即 只 要 有 后 台 线 程 运行 (同一 个 
时 刻 处 于 运行 状态 的 线程 数 不 应 该 超过 一 个 )， 垃 圾 收集 器 就 不 会 马上 对 整个 堆 进 行 垃圾 
收集 。 这 个 后 台 线 程 间 断 性 地 暂停 ， 有 助 于 和 个 条 统 否 吐 量 的 提高 ， CPU 处 
理 资 源 让 给 了 应 用 线程 的 运行 。 当 然 ， 如 果 CMS 收集 线程 一 旦 运行 起 来 ， 还 是 会 与 应 用 
程序 线程 争夺 有 限 的 CPU 处 理 周期 。 


指定 -XX:+CMSIncrementalMode 标志 可 以 开启 增 量 式 CMS 垃圾 收集 。 通 过 改变 标志 -XX:CMSInc 
rementaLSafetyFactor=N、-XX:CMSIncrementaLDutyCycLeMin=N 和 -XX:CMSIncrementaLPacing 


可 以 控制 垃圾 收集 后 台 线 程 为 应 用 程序 线程 让 出 多 少 CPU 周期 。 


增 量 式 CMS 垃圾 收集 依据 责任 周期 《duty cycle) 原则 进行 工作 ， 这 个 原则 决定 了 CMS 垃 
圾 收集 器 的 后 台 线 程 在 释放 CPU 周期 给 应 用 线程 之 前 ， 每 隔 多 长 时 间 扫 描 一 次 堆 。 从 操 
作 系 统 的 层次 上 看 ，CMS 垃圾 收集 器 的 后 台 线 程 已 经 和 应 用 的 线程 发 生 了 竞争 〈 通 常 是 基 
于 时 间 片 的 )。 换 个 角度 看 ， 这 些 标志 实际 控制 着 主动 暂停 运行 、 释 放 资 源 给 应 用 线程 运 
行 之 前 ， 后 台 线 程 持续 运行 的 时 间 。 

责任 周期 的 时 间 长 度 是 以 新 生 代 相 邻 两 次 垃圾 收集 之 间 的 时 间 长 度 计算 得 出 的 ， 默 认 情况 
下 ， 增 量 式 CMS 垃圾 收集 持续 的 时 间 是 该 时 长 的 20% 左右 (至 少 初始 时 是 这 个 值 ， 不 过 
CMS 会 不 断 调整 该 值 以 适应 不 断 晋升 到 老年 代 的 对 象 数目 )。 如 果 这 个 时 间 不 够 长 ， 就 会 
发 生 并 发 模式 失效 (以 及 Full GC)。 我 们 的 目标 就 是 通过 调整 增 量 式 CMS 垃圾 收集 ， 避 
免 发 生 这 种 GC (或 者 尽量 减少 它们 发 生 的 频率 )。 


我 们 从 调整 增 大 CMSIncrenentalsafetyFactor 参数 入 手 ， 这 个 参数 设置 是 增加 到 默认 责任 
周期 的 时 间 百 分 比 。 责 任 周期 的 默认 值 是 10%， 默 认 情况 下 ， 安 全 因子 (safety factor) 
的 值 是 再 增加 10% (这 样 默 认 的 初始 责任 周期 所 占用 的 时 间 百分比 就 变 成 了 20%)。 通 过 
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增 大 安全 因子 (最 大 可 以 增加 到 90， 不 过 这 会 导致 增 量 周期 占用 所 有 的 时 间 )， 可 以 让 后 
台 线 程 有 更 多 的 运行 时 间 。 

除 此 之 外 ， 如 果 参 数 CMSIncrementalDutyCycleMin 设置 得 比 默认 值 (10) 更 大 也 可 以 调整 
责任 周期 的 长 度 。 不 过 这 个 参数 值 会 受 JVM 自动 调节 机 制 的 影响 ， 因 为 JVM 的 自动 调节 
机 人 制 会 监控 由 新 生 代 晋升 到 老年 代 的 对 象 数 并 进行 相应 的 调节 。 所 以 ， 即 使 增 大 这 个 值 ， 
JVM 可 能 还 是 会 依据 自身 的 判断 ， 即 增 量 式 垃圾 收集 运行 不 需要 运行 得 过 于 频繁 ， 而 减 小 
这 个 参数 的 值 。 如 果 应 用 程序 运行 时 操作 有 爆发 式 的 波峰 ， 通 过 自动 调节 机 制 计 算出 的 结 
果 通 常 不 准确 ， 你 需要 显 式 地 设置 责任 周期 ， 同 时 调整 CMSIncrementalDutyCycle 标志 关闭 
自动 参数 调节 (CMSIncrementaLDutyCycte 的 值 默 认为 真 ， 即 开启 )。 


快速 小 结 

1， 应 用 在 CPU 资源 受 限 的 机 器 上 运行 ， 同 时 又 要 求 较 小 的 停顿 ， 这 时 使 用 
增 量 式 CMS 收集 器 是 一 个 不 错 的 选择 。 

2. 通过 责任 周期 可 以 调整 增 量 式 CMS 收集 器 ， 增 加 责任 周期 的 运行 时 间 可 
以 避免 CMS 收集 器 发 生 并 发 模式 失效 。 


6.3 ”理解 G1 垃圾 收集 器 


G1 垃圾 收集 器 是 一 种 工作 在 堆 内 不 同 分 区 上 的 并 发 收集 器 。 分 区 (region) 既 可 以 归属 于 
老年 代 ， 也 可 以 归属 于 新 生 代 (默认 情况 下 ， 一 个 堆 被 划分 成 2048 个 分 区 )， 同 一 个 代 的 
分 区 不 需要 保持 连续 。 为 老年 代 设 计 分 区 的 初衷 是 我 们 发 现 并 发 后 台 线 程 在 回收 老年 代 中 
没有 引用 的 对 象 时 ， 有 的 分 区 垃圾 对 象 的 数量 很 多 ， 另 一 些 分 区 的 垃圾 对 象 相 对 较 少 。 虽 
然 分 区 的 垃圾 收集 工作 实际 仍然 会 暂停 应 用 程序 线程 ， 不 过 由 于 G1 收集 器 专注 于 垃圾 最 
多 的 分 区 ， 最 终 的 效果 是 花费 较 少 的 时 间 就 能 回收 这 些 分 区 的 垃圾 。 这 种 只 专注 于 垃圾 最 
多 分 区 的 方式 就 是 G1 垃圾 收集 器 名 称 的 由 来 ， 即 首先 收集 垃圾 最 多 的 分 区 。 

不 过 这 一 算法 并 不 适用 于 新 生 代 的 分 区 : 新 生 代 进行 垃圾 回收 时 ， 整 个 新 生 代 空间 要 么 被 
回收 ， 要 么 被 晋升 (对象 被 移动 到 Survivor 空间 ， 或 者 移动 到 老年 代 )。 新 生 代 也 采用 分 
区 机 制 的 部 分 原因 ， 是 因为 采用 预定 义 的 分 区 能 够 便于 代 的 大 小 调整 。 

G1 收集 器 的 收集 活动 主要 包括 4 种 操作 : 

。 新 生 代 垃圾 收集 ， 

。 后 台 收 集 ， 并 发 周期 ; 

。 混合 式 垃圾 收集 ， 

。 以 及 必要 时 的 Full GC。 

我 们 会 依次 讨论 每 一 种 操作 ， 首 先 讨 论 的 是 G1 收集 器 的 新 生 代 垃圾 收集 ， 如 图 6-6 所 示 。 
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6-6: 用 G1 垃圾 收集 器 的 新 生 代 收 集 前 后 对 比 


图 中 的 每 一 个 小 方块 都 代表 一 个 G1 的 分 区 。 分 区 中 黑色 的 区 域 代 表 数 据 ， 每 个 分 区 中 的 
字母 表示 该 区 域 属 于 哪个 代 【([E] 代表 Eden 空间 ，[O] 代表 老年 代 ，[S] 代表 Survivor 空 
间 )。 空 的 分 区 不 属于 任何 一 个 代 ， 需 要 的 时 候 G1 收集 器 会 强制 指定 这 些 空 的 分 区 用 于 任 
何 需 要 的 代 。 

Eden 空间 耗 尽 会 触发 G1 垃圾 收集 器 进行 新 生 代 垃圾 收集 (这 个 例子 中 ， 标 识 为 Eden 的 4 
个 分 区 填 满 之 后 就 会 触发 新 生 代 收集 )。 新 生 代 收集 之 后 不 会 有 新 的 分 区 马上 分 配 到 Eden 
空间 ， 因 为 这 时 Eden 空间 为 空 。 不 过 至 少 会 有 一 个 分 区 分 配 到 Survivor 空间 (这 个 例子 
中 ，Survivor 空间 被 部 分 填 满 ) ， 一 部 分 数据 会 移动 到 老年 代 。 

G1 垃圾 收集 器 中 ， 新 生 代 垃圾 收集 的 日 志 与 其 他 的 收集 器 略 有 不 同 。 与 往常 一 样 ， 我 们 
可 以 使 用 PrintGCDetaitLs 输出 例子 的 垃圾 回收 日 志 ， 不 过 G1 收集 的 日 志 要 详细 得 多 。 这 
里 仅仅 列 出 了 例子 中 重要 的 几 行 。 

下 面 是 新 生 代 垃圾 收集 的 标准 流程 : 


23.430: [GC pause (young), 0.23094400 secs] 
















































































[Eden: 1286M(1286M)->0B(1212M) 
Survivors: 78M->152M Heap: 1454M(4096M)->242M(4096M)] 
[Times: user=0.85 sys=0.05, real=0.23 secs] 


这 里 新 生 代 垃圾 收集 的 Real 时 间 消 耗 是 0.23 秒 ， 这 期 间 ， 垃 圾 收集 线程 消耗 了 0.85 秒 的 
CPU 时 间 ，1286 MB 的 对 象 移 出 了 Eden 空间 (Eden 空间 的 大 小 调整 到 了 1212 MB) ; 这 
其 中 的 74 MB 移动 到 了 Survivor 空间 (Survivor 空间 的 大 小 从 78 MB 增加 到 了 152 MB )， 
其 余 的 空间 都 被 垃圾 收集 器 回收 掉 了 。 通 过 观察 堆 的 总 占用 降低 了 1212 MB 我 们 知道 ， 这 
些 空间 被 释放 了 。 通 常情 况 下 ， 一 部 分 对 象 已 经 从 Survivor 空间 移动 到 老年 代 空 间 ， 如 果 
Survivor 空间 被 填 满 ， 无 法 容纳 新 生 代 的 晋升 对 象 ， 部 分 Eden 空间 的 对 象 会 被 直接 晋升 到 
老年 代 空间 一 一 这 种 情况 下 ， 老 年 代 空 间 的 占用 也 会 增加 。 


图 6-7 是 并 发 G1 垃圾 收集 周期 (concurrent G1 cycle) 开始 和 结束 时 的 情况 。 
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图 6-7: G1 收集 器 进行 的 并 发 垃圾 收集 


这 幅 图 中 有 三 方面 值得 我 们 关注 。 首 先 ， 新 生 代 的 空间 占用 情况 发 生 了 变化 : 在 并 发 周期 
中 ， 至 少 有 一 次 (很 可 能 是 多 次 ) 新 生 代 垃圾 收集 。 因 此 ， 在 将 Eden 空间 中 的 分 区 标记 
为 完全 释放 之 前 ， 新 的 Eden 分 区 已 经 开始 分 配 了 。 


其 次 ， 我 们 注意 到 一 些 分 区 现在 被 标记 为 X。 这 些 分 区 属于 老年 代 (注意 ， 它 们 依然 还 保 
持 着 数据 ) ， 它 们 就 是 标记 周期 (marking cycle) 找 出 的 包含 最 多 垃圾 的 分 区 。 


最 后 ， 我 们 还 要 留意 老年 代 (包括 标记 为 0 或 者 X 的 分 区 ) 的 空间 占用 ， 在 周期 结束 时 
实际 可 能 更 多 。 这 是 因为 在 标记 周期 中 ， 新 生 代 的 垃圾 收集 会 晋升 对 象 到 老年 代 。 除 此 之 
外 ， 标 记 周 期 中 实际 不 会 释放 老年 代 中 的 任何 对 象 : 它 仅 仅 锁定 了 那些 垃圾 最 多 的 分 区 。 
这 些 分 区 中 的 垃圾 数据 会 在 之 后 的 周期 中 被 回收 释放 。 


G1 收集 器 的 并 发 周期 包括 多 个 阶段 ， 其 中 的 一 些 会 暂停 所 有 应 用 线程 ， 另 一 些 则 不 会 。 
并 发 周期 的 第 一 个 阶段 是 初始 一 标记 (initial-mark) 阶段 。 这 个 阶段 会 暂停 所 有 应 用 线 
程 一 一 部 分 源 于 初始 一 标记 阶段 也 会 进行 新 生 代 垃 圾 收集 。 
50.541: [GC pause (young) (initial-mark), 0.27767100 secs] 
[Eden: 1220M(1220M)->0B(1220M) 


Survivors: 144M->144M Heap: 3242M(4096M) ->2093M(4096M) ] 
[Times: user=1.02 sys=0.04, real=0.28 secs] 


同 常规 的 新 生 代 垃 圾 收集 一 样 ， 初 始 一 标记 阶段 中 ， 应 用 线程 被 暂停 (大约 时 长 0.28 秒 )， 
之 后 新 生 代 被 清空 《71 MB 的 数据 从 新 生 代 移 到 了 老年 代 )。 初 始 一 标记 阶段 的 输出 日 志 
表明 后 台 并 发 周期 启动 。 由 于 初始 一 标记 阶段 也 需要 暂停 所 有 的 应 用 线程 ，G1 收集 器 重 
用 了 新 生 代 GC 周期 来 完成 这 部 分 的 工作 。 在 新 生 代 垃圾 收集 中 添加 初始 标记 阶段 的 影响 
并 不 大 : 与 之 前 的 垃圾 收集 相 比 较 ，CPU 周期 的 开销 增加 了 大 约 20%， 即 便 如 此 ， 停 顿 
时 间 只 有 些微 的 增长 (幸运 的 是 ， 这 台 机 器 上 有 空 闪 的 CPU 周期 可 以 运行 并 发 G1 收集 线 
程 ， 否 则 停顿 时 间 会 更 长 一 些 )。 


接 下 来 ，G1 收集 器 会 扫描 根 分 区 (root region) : 


50.819: [GC concurrent-root-region-scan-start] 
51.408: [GC concurrent-root-region-scan-end, 0.5890230] 



























































































































































这 个 过 程 耗 时 0.58 秒 ， 不 过 扫描 过 程 中 不 需要 暂停 应 用 现场 ，G1 收集 器 使 用 后 台 线 程 进 
行 扫描 工作 。 不 过 ， 这 个 阶段 中 不 能 发 生 新 生 代 垃圾 收集 ， 因 此 预 留 足够 的 CPU 周期 给 
后 台 线 程 运 行 是 非常 重要 的 。 如 果 扫 描 根 分 区 时 ， 新 生 代 空间 刚巧 用 尽 ， 新 生 代 垃圾 收集 
(会 暂停 所 有 的 应 用 线程 ) 必须 等 待 根 扫描 结束 才能 完成 。 效 果 上 ， 这 意味 着 新 生 代 垃圾 
收集 的 停顿 时 间 会 更 长 〈 远 超过 正常 的 耗 时 )。 这 种 情况 在 GC 日 志 中 如 下 所 示 : 
350.994: [GC pause (young) 
351.093: [GC concurrent-root-region-scan-end, 0.6100090] 


351.093: [GC concurrent-mark-start], 
0.37559600 secs] 


此 处 GC 的 停顿 发 生 在 根 分 区 扫描 之 前 ， 这 意味 着 GC 停顿 还 会 继续 等 待 ， 我 们 会 看 到 
GC 日志 中 的 相互 交织 的 输出 。GC 日 志 的 时 间 惟 显示 应 用 线程 等 待 了 大 概 100 毫秒 一 一 这 
就 是 新 生 代 GC 停顿 时 间 比 日 志 中 其 他 停顿 的 平均 持续 时 间 还 长 100 毫秒 的 原因 。 这 是 一 
个 信号 ， 说 明 你 的 G1 收集 器 需要 进行 调 优 ， 下 一 市 我 们 将 详细 讨论 这 部 分 内 容 。 

根 分 区 扫描 完成 后 ，G1 收集 器 就 进入 到 并 发 标记 阶段 。 这 个 阶段 完全 在 后 台 运 行 ， 阶段 
启动 和 停止 时 在 GC 日 志 中 各 会 打印 一 条 日 志 。 


111.382: [GC concurrent-mark-start] 



































120.905: [GC concurrent-mark-end, 9.5225160 sec] 


并 发 标记 阶段 是 可 以 中 断 的 ， 所 以 这 个 阶段 中 可 能 发 生 新 生 代 垃 圾 收集 。 紧 接 在 标记 阶段 
之 后 的 是 重新 标记 (remarking) 阶段 和 正常 的 清理 阶段 。 
120.910: [GC remark 120.959: 
[GC ref-PRC, 0.0000890 secs], 0.0718990 secs] 
[Times: user=0.23 sys=0.01, real=0.08 secs] 


120.985: [GC cleanup 3510M->3434M(4096M), 0.0111040 secs] 
[Times: user=0.04 sys=0.00, real=0.01 secs] 


这 几 个 阶段 都 会 暂停 应 用 线程 ， 虽 然 暂 停 的 时 间 通 常 很 短 。 紧 接着 是 一 个 额外 的 并 发 清理 
阶段 : 


120.996: [GC concurrent-cleanup-start] 
120.996: [GC concurrent-cleanup-end, 0.0004520] 


这 之 后 ， 正 常 的 G1 周期 就 结束 了 一 一 至 少 是 垃圾 的 定位 就 完成 了 。 清 理 阶 段 真正 回收 
的 内 存 数量 很 少 ，G1 到 这 个 点 为 止 真正 做 的 事情 是 定位 出 哪些 老 的 分 区 可 回收 垃圾 最 多 
( 即 图 6-7 中 标记 为 X 的 分 区 )。 

现在 ，G1 会 执行 一 系列 的 混合 式 垃圾 回收 (mixed GC)。 这 些 垃圾 回收 被 称 作 “混合 式 ” 
是 因为 它们 不 仅 进 行 正常 的 新 生 代 垃圾 收集 ， 同 时 也 回收 部 分 后 台 扫 描 线程 标记 的 分 区 。 
混合 式 垃圾 收集 的 效果 如 图 6-8 所 示 。 
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图 6-8: 使 用 G1 收集 器 进行 的 混合 式 GC 





同 新 生 代 垃圾 收集 通常 的 行为 一 样 ，G1 收集 器 已 经 清空 了 Eden 空间 ， 同 时 调整 了 
Survivor 空间 的 大 小 。 此 外 ， 标 记 的 两 个 分 区 也 已 经 被 回收 。 这 些 分 区 在 之 前 的 扫描 中 已 
经 证 实 包含 大 量 垃圾 对 象 ， 因 此 绝 大 部 分 已 经 被 释放 。 

这 些 分 区 中 的 活跃 数据 被 移动 到 另 一 个 分 区 〈 就 像 把 活跃 数据 从 新 生 代 移 动 到 老年 代 的 分 
区 )。 这 就 是 为 什么 G1 收集 器 最 终 出 现 碎片 化 的 堆 的 频率 ， 跟 CMS 收集 器 比较 起 来 要 小 
得 多 的 原因 一 一 随 着 G1 垃圾 的 回收 以 这 种 方式 移动 对 象 ， 实 际 伴随 着 压缩 。 

关于 混合 式 垃圾 回收 操作 ， 请 参考 下 面 的 日 志 : 


79.826: [GC pause (mixed), 0.26161600 secs] 




































































[Eden: 1222M(1222M)->0B(1220M) 
Survivors: 142M->144M Heap: 3200M(4096M)->1964M(4096M)] 
[Times: user=1.01 sys=0.00, real=0.26 secs] 


应 注意 ,减少 的 整个 堆 的 使 用 不 仅仅 是 Eden 空间 移 走 的 1222 MB。 这 其 中 的 差异 看 起 来 
很 小 (只 有 16 MB),， 但 是 同时 还 有 部 分 Survivor 空间 的 对 象 晋升 到 了 永久 代 ， 除 此 之 外 ， 
每 次 混合 式 垃圾 回收 只 会 清理 部 分 目标 老年 代 分 区 。 接 下 来 的 讨论 中 ， 我 们 会 看 到 确保 混 
合式 垃圾 收集 清理 掉 足 够 的 内 存 对 避免 将 来 发 生 并 发 失效 有 多 重要 。 
混合 式 垃圾 回收 周期 会 持续 运行 直到 〈 儿 乎 ) 所 有 标记 的 分 区 都 被 回收 ， 这 之 后 G1 收集 
器 会 恢复 常规 的 新 生 代 垃圾 回收 周期 。 最 终 ，G1 收集 器 会 启动 再 一 次 的 并 发 周期 ， 决 定 
哪些 分 区 应 该 在 下 一 次 垃圾 回收 中 释放 。 
同 CMS 收集 器 一 样 ， 有 的 时 候 你 会 在 垃圾 回收 日 志 中 观察 到 Full GC， 这 些 日 志 是 一 个 信 
号 ， 表明 我 们 需要 进一步 调 优 (具体 的 方式 很 多 ， 其 至 很 可 能 要 分 配 更 多 的 堆 空间 ) 才能 
提升 应 用 程序 的 性 能 。 主 要 有 4 种 情况 会 触发 这 类 的 Full GC， 如 下 所 列 。 
并 发 模式 失效 
G1 垃圾 收集 启动 标记 周期 ,但 老年 代 在 周期 完成 之 前 就 被 填 满 ， 在 这 种 情况 下 ，G1 收 
集 器 会 放弃 标记 周期 : 
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51.408: [GC concurrent-mark-start] 

65.473: [Full GC 4095M->1395M(4096M), 6.1963770 secs] 
[Times: user=7.87 sys=0.00, real=6.20 secs] 

71.669: [GC concurrent-mark-abort] 


发 生 这 种 失败 意味 着 堆 的 大 小 应 该 增加 了 ， 或 者 G1 收集 器 的 后 台 处 理应 该 更 早 开 始 ， 
或 者 是 需要 调整 周期 让 它 运 行 得 更 快 ( 璧 如， 增加 后 台 处 理 的 线程 数 )。 
晋升 失败 
G1 收集 器 完成 了 标记 阶段 ， 开 始 启动 混合 式 垃圾 回收 ， 清 理 老年 代 的 分 区 ， 不 过 ， 老 
年 代 空间 在 垃圾 回收 释放 出 足够 内 存 之 前 就 会 被 耗 尽 。 垃 圾 回收 日 志 中 ， 这 种 情况 的 现 
象 通常 是 混合 式 GC 之 后 紧 接 着 一 次 Full GC。 
2226.224: [GC pause (mixed) 
2226.440: [SoftReference, 0 refs, 0.0000060 secs] 
2226.441: [WeakReference, 0 refs, 0.0000020 secs] 
2226.441: [FinalReference, 0 refs, 0.0000010 secs] 
2226.441: [PhantomReference, 0 refs, 0.0000010 secs] 


2226.441: [JNI Weak Reference, 0.0000030 secs] 
(to-space exhausted), 0.2390040 secs] 











[Eden: 0.0B(400.0M)->0.0B(400.0M) 
Survivors: 0.0B->0.0B Heap: 2006.4M(2048.0M)->2006.4M(2048.0M)] 

[Times: user=1.70 sys=0.04, real=0.26 secs] 

2226.510: [Full GC (Allocation Failure) 
2227.519: [SoftReference, 4329 refs, 0.0005520 secs] 
2227.520: [WeakReference, 12646 refs, 0.0010510 secs] 
2227.521: [FinalReference, 7538 refs, 0.0005660 secs] 
2227.521: [PhantomReference, 168 refs, 0.0000120 secs] 
2227.521: [JNI Weak Reference, 0.0000020 secs] 
2006M->907M(2048M) ，4.1615450 secs] 
[Times: user=6.76 sys=0.01, real=4.16 secs] 


这 种 失败 通常 意味 着 混合 式 收集 需要 更 迅速 地 完成 垃圾 收集 ， 每 次 新 生 代 垃 圾 收集 需要 
处 理 更 多 老年 代 的 分 区 。 

足 散失 败 
进行 新 生 代 垃 圾 收集 时 ，Survivor 空间 和 老年 代 中 没有 足够 的 空间 容纳 所 有 的 幸存 对 
象 。 这 种 情形 在 GC 日 志 中 通常 被 当成 一 种 特别 的 新 生 代 : 

60.238: [GC pause (young) (to-space overflow), 0.41546900 secs] 


这 条 日 志 表明 堆 已 经 几乎 完全 用 尽 或 者 碎片 化 了 。G1 收集 器 会 尝试 修复 这 一 失败 ， 但 
是 你 可 以 预期 ， 结 果 会 更 加 恶化 ，G1 收集 器 会 转 而 使 用 Full GC。 解 决 这 个 问题 最 简单 
的 方式 是 增加 堆 的 大 小 ， 除 此 之 外 ， 其 他 一 些 可 能 的 解决 方案 会 在 第 159 页 “高 级 调 
优 ”一 节 讨论 。 

巨型 对 象 分 配 失败 
使 用 G1 收集 器 时 ， 分配 非 常 巨 大 对 象 的 应 用 程序 可 能 会 遭遇 另 一 种 Full GC， 参见 
6.4.2 节 中 “使 用 G1 分 配 巨型 对 象 ”一 节 。 目 前 为 止 没有 工具 可 以 很 方便 地 专门 诊断 这 
种 类 型 的 失败 ， 尤 其 是 从 标准 垃圾 收集 日 志 中 进行 诊断 。 不 过 ， 如 果 发 生 了 莫名 其 妙 的 
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Full GC， 其 源头 很 可 能 是 巨型 对 象 分 配 导 致 的 问题 。 


快速 小 结 

1. G1 垃圾 收集 包括 多 个 周期 (以 及 并 发 周期 内 的 阶段 )。 调 优良 好 的 JVM 
运行 G1 收集 器 时 应 该 只 经 历 新 生 代 周期 、 混 合式 周期 和 并 发 GC 周期 。 

2，G1 的 并 发 阶段 会 产生 少量 的 停顿 。 

3. 恰当 的 时 候 ， 我 们 需要 对 G1 进行 调 优 ， 才 能 避免 Full GC 周期 发 生 。 
































G1 垃 圾 收集 器 调 优 

G1 垃圾 收集 器 调 优 的 主要 目标 是 避免 发 生 并 发 模式 失败 或 者 玻 散 失败 ， 一 旦 发 生 这 些 失 
败 就 会 导致 Full GC。 避 免 Full GC 的 技巧 也 适用 于 频繁 发 生 的 新 生 代 垃圾 收集 ， 这 些 垃圾 
收集 需要 等 待 扫描 根 分 区 完成 才能 进行 。 

其 次 ， 调 优 可 以 使 过 程 中 的 停顿 时 间 最 小 化 。 下 面 所 列 的 这 些 方法 都 能 够 避免 发 生 Full 
GC。 


。 通过 增加 总 的 堆 空间 大 小 或 者 调整 老年 代 、 新 生 代 之 间 的 比例 来 增加 老年 代 空间 的 
大 小 。 

。 增加 后 人 台 线 程 的 数目 (假设 我 们 有 足够 的 CPU 资源 运行 这 些 线程 ) 。 

。 以 更 高 的 频率 进行 G1 的 后 台 垃 圾 收集 活动 。 

。 在 混合 式 垃圾 回收 周期 中 完成 更 多 的 垃圾 收集 工作 。 


这 里 有 很 多 的 调 优 可 以 做 ， 不 过 G1 垃圾 收集 器 调 优 的 目标 之 一 是 尽量 简单 。 为 了 达到 这 
个 目标 ，G1 收集 器 最 主要 的 调 优 只 通过 一 个 标志 进行 ， 这 个 标志 跟 Throughput 收集 器 的 
标志 一 致 ， 也 是 -XX:MaxGCPauseMillis=W。 


使 用 G1 垃圾 收集 器 时 ， 该 标志 有 一 个 默认 值 ，299 毫秒 (这 一 点 跟 Throughput 收集 器 有 
所 不 同 )。 如 果 G1 收集 器 发 生 时 空 停顿 (stop-the-world) 的 时 长 超过 该 值 ，G1 收集 器 就 
会 尝试 各 各 方式 进行 弥补 一 譬如 调整 新 生 代 与 老年 代 的 比例 ， 调 整 堆 的 大 小 ， 更 早 地 启 
动 后 台 处 理 ， 改 变 晋升 六 值 ， 或 者 是 在 混合 式 垃圾 收集 周期 中 处 理 更 多 或 更 少 的 老年 代 分 
区 (这 是 最 重要 的 方式 )。 

通常 的 取舍 就 发 生 在 这 里 ， 如果 减 小 参数 值 ， 为 了 达到 停顿 时 间 的 目标 ， 新 生 代 的 大 小 会 
相应 减 小 ， 不 过 新 生 代 垃 圾 收集 的 频率 会 更 加 频繁 。 除 此 之 外 ， 为 了 达到 停顿 时 间 的 目 
标 ， 混 合式 GC 收集 的 老年 代 分 区 数 也 会 减少 ， 而 这 会 增 大 并 发 模式 失败 发 生 的 机 会。 

如 果 设 置 停顿 时 间 目标 无 法 避免 Full GC， 我 们 可 以 进一步 针对 不 同 的 方面 逐一 调 优 。 对 
G1 垃圾 收集 器 而 言 ， 调 整 堆 大 小 的 方法 与 其 他 的 垃圾 收集 算法 并 没有 什么 不 同 。 

1. 调整 G1 垃 圾 收集 的 后 台 线 程 数 

为 了 帮助 G1 赢得 这 场 垃圾 收集 的 比赛 ， 可 以 尝试 增加 后 台 标记 线程 的 数目 (假设 机 器 有 
足够 的 空闲 CPU 可 以 支撑 这 些 线程 的 运行 )。 

调整 G1 垃圾 收集 线程 的 方法 与 调整 CMS 垃圾 收集 线程 的 方法 类 似 ， 对 于 应 用 线程 暂停 运 
行 的 周期 ， 可 以 使 用 ParatLetGCThreads 标志 设置 运行 的 线程 数 ， 对 于 并 发 运行 阶段 可 以 
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使 用 ConcGCThreads 标志 设置 运行 线程 数 。 不 过 ，ConcGCThreads 标志 的 默认 值 在 G1 收集 
器 中 不 同 于 CMS 收集 器 。 它 的 计算 方法 如 下 : 


ConcGCThreads = (ParaLLeLGCThreads + 2) / 45 








I 








这 个 算法 依然 是 基于 整数 的 ，G1 收集 器 与 CMS 收集 器 的 计算 方法 相差 无 几 。 

2. 调整 G1 垃圾 收集 器 运行 的 频率 

如 果 G1 收集 器 更 早 地 启动 垃圾 收集 ， 也 能 赢得 这 场 比 赛 。G1 垃圾 收集 周期 通常 在 堆 的 占 
用 达到 参数 -XX:InitiatingHeapOccupancyPercent=N 设 定 的 比率 时 启动 ， 默 认 情 况 下 该 参 
数 的 值 为 44。 注 意 ， 跟 CMS 收集 器 不 太一 样 ， 这 个 参数 值 的 依据 是 整个 堆 的 使 用 情况 ， 
不 单 是 老年 代 的 。 


InitiatingHeapOccupancyPercent 的 值 是 个 常数 ，G1 收集 器 自身 不 会 为 了 达到 停顿 时 间 目 
标 而 修改 这 个 参数 值 。 如 果 该 参数 设置 得 过 高 ， 应 用 程序 会 陷入 Full GC 的 泥潭 之 中 ， 
为 并 发 阶段 没有 足够 的 时 间 在 剩 下 的 堆 空间 被 填 满 之 前 完成 垃圾 收集 。 如 果 该 值 设 定 得 过 
小 ， 应 用 程序 又 会 以 超过 实际 需要 的 节奏 进行 大 量 的 后 台 处 理 。 我 们 在 介绍 CMS 收集 器 
时 讨论 过 ， 必 须要 有 能 支撑 后 台 处 理 的 CPU 周期 ， 因 此 消耗 额外 的 CPU 就 不 那么 重要 。 
然而 ， 这 可 能 会 带 来 非常 严重 的 后 果 ， 因 为 并 发 阶段 会 出 现 越 来 越 多 的 短暂 应 用 线程 的 停 
顿 。 这 些 停顿 会 迅速 累积 起 来 ， 因 此 使 用 G1 收集 器 时 要 训 免 频繁 地 进行 后 台 清 理 。 并 发 
周期 结束 之 后 ， 检 查 下 堆 的 大 小 ， 确 保 InitiatingHeapOccupancyPercent 的 值 大 于 此 时 堆 
的 大 小 。 


3. 调整 G1 收集 器 的 混合 式 垃圾 收集 周期 

并 发 周期 之 后 、 老 年 代 的 标记 分 区 回收 完成 之 前 ，G1 收集 器 无 法 启动 新 的 并 发 周期 。 
此 ， 让 G1 收集 器 更 早 启动 标记 周期 的 另 一 个 方法 是 在 混合 式 垃圾 回收 周期 中 尽量 处 理 更 
多 的 分 区 (如 此 一 来 最 终 的 混合 式 GC 周期 就 变 少 了 )。 

混合 式 垃圾 收集 要 处 理 的 工作 量 取 决 于 三 个 因素 。 第 一 个 因素 是 有 和 多少 分 区 被 发 现 大 部 分 
是 垃圾 对 象 。 目 前 没有 标志 能 够 直接 调节 这 个 因素 : 混合 式 垃圾 收集 中 ， 如 果 分 区 的 垃圾 
占用 比 达 到 35% ， 这 个 分 区 就 被 标记 为 可 以 进行 垃圾 回收 。( 这 个 因素 在 将 来 的 某 个 时 刻 
可 能 也 能 调整 ， 在 开源 的 实验 版 本 中 已 经 有 名 为 -XX:G1MitxedGCLiveThreshoLdPercent=W 的 
参数 可 以 对 其 进行 调整 ) 。 

第 二 个 因素 是 G1 垃 圾 收集 回收 分 区 时 的 最 大 混合 式 GC 周期 数 ， 通 过 参数 
-XX:G1MixedGCCountTarget=N 可 以 进行 调节 。 这 个 参数 的 默认 值 为 8 减少 该 参数 值 可 以 帮 
助 解决 晋升 失败 的 问题 (代价 是 混合 式 GC 周期 的 停顿 时 间 会 更 长 )。 

另 一 方面 ， 如 果 混 合式 GC 的 停顿 时 间 过 长 ， 可 以 增 大 这 个 参数 的 值 ， 减 少 每 次 混合 式 
GC 周期 的 工作 量 。 不 过 调整 之 前 我 们 需要 确保 增 大 值 之 后 不 会 对 下 一 次 G1 并 发 周期 带 来 
太 大 的 延迟 ， 否 则 可 能 会 导致 并 发 模式 失败 。 


最 后 ， 第 三 个 影响 因素 是 GC 停顿 可 忍受 的 最 大 时 长 (通过 MaxGCPauseMillis 参数 设 定 )。 
MaxGCPauseMillis 标志 设 定 的 混合 式 周期 时 长 是 向 上 规整 的 ， 如 果实 际 停顿 时 间 在 停顿 最 















































































































































注 3: CMS 收集 器 的 ConcGCThreads 计算 公式 为 ConcGCThreads = (3 + ParallelGCThreads) / 4。 
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大 时 长 以 内 ，G1 收集 器 能 够 收集 超过 八 分 之 一 标记 的 老年 代 分 区 〈 或 者 其 他 设 定 的 值 )。 
增 大 MaxGCPauseMillis 能 在 每 次 混合 式 GC 中 收集 更 多 的 老年 代 分 区 ， 而 这 反 过 来 又 能 帮 
助 G1 收集 器 在 更 早 的 时 候 启 动 并 发 周期 。 











快速 小 结 
1. 作为 G1 收集 器 调 优 的 第 一 步 ， 首 先 应 该 设 定 一 个 合理 的 停顿 时 间作 为 目 
标 。 


2. 如 果 使 用 这 个 设置 后 ， 还 是 频繁 发 生 Full GC， 并 且 堆 的 大 小 没有 扩大 的 
可 能 ， 这 时 就 需要 针对 特定 的 失败 采用 特定 的 方法 进行 调 优 。 
a， 通 过 InitiatingHeap0ccupancyPercent 标志 可 以 调整 G1 收集 器 ， 更 
频繁 地 启动 后 台 垃 圾 收集 线程 。 
b. 如 果 有 充足 的 CPU 资源 ， 可 以 考虑 调整 ConcGCThreads 标志 ， 增 加 
垃圾 收集 线程 数 。 
c， 减 小 61MixedGCCountTarget 参数 可 以 避免 晋升 失败 。 


6.4 高 级 调 优 


这 一 节 我 们 会 讨论 一 些 比较 少见 的 性 能 问题 调 优 。 虽 然 这 些 场景 不 常 万 到 ， 但 是 垃圾 收集 
算法 涉及 的 很 多 底层 细节 会 在 这 一 节 中 详细 讨论 。 











6.4.1 晋升 及 Survivor 空 间 


新 生 代 垃 圾 收集 时 ， 有 的 对 象 可 能 还 处 于 活跃 期 。 这 些 对 象 中 ， 有 些 是 刚 创建 的 新 对 象 ， 
这 些 对 象 还 会 存活 相当 长 的 一 段 时 间 ， 还 有 一 些 只 有 短暂 的 生命 周期 。 我 们 以 第 5 章 中 讨 
论 过 的 计算 BigDecimal 的 循环 为 例 。 如 果 JVM 在 循环 的 中 段 启动 垃圾 回收 ， 这 些 超 短 寿 
(very-short-lived) 的 BigDecimal 对 象 面临 的 局 面 就 变 得 非常 尴 俯 ， 它们 刚 被 创建 ， 因 此 不 
能 被 回收 释放 ， 但 是 它们 的 生命 周期 又 非常 短 ， 无 法 满足 晋升 到 老年 代 的 条 件 。 


这 就 是 新 生 代 被 划分 成 一 个 Eden 空间 和 两 个 Survivor 空间 的 原因 。 这 种 布局 让 对 象 在 新 
生 代 内 有 更 多 的 机 会 被 回收 ， 不 再 局 限于 只 能 晋升 到 老年 代 (最 终 填 满 老 年 代 )。 


新 生 代 垃圾 收集 上 时， 如 果 JVM 发 现 对 象 还 十 分 活跃 ,会 首先 尝试 将 其 移动 到 Survivor 
空间 ， 而 不 是 直接 移动 到 老年 代 。 首 次 新 生 代 垃圾 收集 时 ， 对 象 被 从 Eden 空间 移动 到 
Survivor 空间 0。 紧 接着 的 下 一 次 垃圾 收集 中 ， 活 跃 对 象 会 从 Survivor 空间 0 和 Eden 空 
间 移 动 到 Survivor 空间 1。 这 之 后 ，Eden 空间 和 Survivor 空间 0 被 完全 清空 。 下 一 次 的 
垃圾 回收 会 将 活跃 对 象 从 Survivor 空间 1 和 Eden 空间 移 回 Survivor 空间 0， 如 此 反复 。 
(Survivor 空间 也 被 称 为 “To” 空 间 和 “From” 空 间 ， 每 次 回收 ， 对 象 由 “From” 空 间 移 
出 ， 移 入 到 “To ”空间 。 “From” 和 “To” 只 是 简单 地 表示 两 个 Survivor 空间 之 间 的 指向 ， 
每 次 垃圾 回收 时 ， 方 向 都 会 互 换 。) 

显而易见 ， 这 种 状况 不 会 一 直 持 续 下 去 ， 否 则 没有 任何 对 象 会 进入 老年 代 。 两 种 情况 下 ， 
对 象 会 被 移动 到 老年 代 。 第 一 ，Survivor 空间 的 大 小 实在 太 小 。 新 生 代 垃圾 收集 时 ， 如 果 
目标 Survivor 空间 被 填 满 ，Eden 空间 剩 下 的 活跃 对 象 会 直接 进入 老年 代 。 第 二 ， 对 象 在 
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Survivor 空间 中 经 历 的 GC 周期 数 有 个 上 限 ， 超 过 这 个 上 限 的 对 象 也 会 被 移动 到 老年 代 。 

这 个 上 限 值 被 称 为 晋升 国 值 (Tenuring Threshold)。 

这 些 影响 垃圾 收集 的 因素 都 有 对 应 的 调 优 标志 。Survivor 空间 是 新 生 代 空 间 的 一 部 分 ， 

跟 堆 内 的 其 他 区 域 一 样 ，JVM 可 以 对 它 进 行动 态 的 调节 。Survivor 空间 的 初始 大 小 由 

-XX:InitialSurvivorRatio=N 标 志 决 定 。 这 个 参数 值 在 下 面 的 这 个 公式 中 使 用 : 
survivor_space_ size = new_ size / (initial_ survivor_ratio + 2) 

初始 Survivor 空间 的 占用 比率 (initial_survivor_ratio) 默认 为 8， 由 此 我 们 可 以 计算 出 每 个 

Survivor 空间 会 占用 大 约 10% 的 新 生 代 空间 。 

JVM 可 以 增 大 Survivor 空 间 的 大 小 直到 其 最 大 上 限 这 个 上 限 可 以 通过 

-XX:MinSurvivorRatio=N 参数 设置 。MinsurvivorRatio 标志 在 下 面 这 个 公式 中 使 用 : 






















































































maximum_survivor_space_size = new_ size / (min survivor_ratio + 2) 


这 个 参数 值 默认 为 3， 意 味 着 Survivor 空间 的 最 大 值 为 新 生 代 空间 的 20%。 再 次 提醒 ,这 
个 参数 值 是 个 分 母 ， 分母 值 最 小 时 ，Survivor 空间 的 容量 最 大 。 这 样 说 起 来 ， 这 个 参数 的 
名 字 的 确 有 些 不 直观 。 

为 了 保持 Survivor 空间 的 大 小 为 某 个 固定 值 ， 我 们 可 以 使 用 SurvivorRatio 参数 ， 将 其 设 
定 为 期 望 的 值 ， 同 时 关闭 UseAdaptivesizePolicy 标志 (然而 ， 我 们 需要 注意 一 点 ， 即 关 
闭 自 适 应 大 小 调整 会 同时 影响 新 生 代 和 老年 代 )。 

JVM 依据 垃圾 回收 之 后 Survivor 空间 的 占用 情况 判断 是 否 需 要 增加 或 者 减少 Survivor 空间 
的 大 小 〈 由 定义 的 比率 决定 )。 默 认 情况 下 ，Survivor 空间 调整 之 后 要 能 保证 垃圾 回收 之 后 
有 509% 的 空间 是 空 闪 的 。 通 过 标志 -XX:TargetSurvivorRatio=N 可 以 设置 这 个 值 。 


最 后 ， 还 有 一 个 问题 ， 即 对 象 在 移动 到 老年 代 之 前 ， 需 要 在 Survivor 空间 之 间 来 回 移动 多 
少 个 GC 周期 。 这 个 问题 取决 于 晋升 国 值 的 设 定 。JVM 会 持续 地 计算 ， 寻 找 它 认 为 最 合 
适 的 晋升 闷 值 。 通 过 -XX:InitiaLTenuringThreshoLd=W 标 志 可 以 设置 初始 的 晋升 国 值 〈 对 
于 Throughput 收集 器 和 G1 收集 器 ， 默 认 值 是 7， 对 于 CMS 收集 器 默认 值 为 6) 。JVM 最 
终 会 在 1 和 最 大 晋升 闷 值 (由 -XX:MaxTenuringThreshold=N 标 志 设 定 ) 之 间 选 择 一 个 合适 
的 值 。 对 于 Throughput 收集 器 和 G1 收集 器 ， 默 认 的 最 大 晋升 闷 值 为 1 5， 对 CMS 收集 器 ， 
最 大 的 晋升 国 值 为 6。 





































































































两 种 窘境 : 一 直 “ 晋 升 ”与 从 不 “晋升 ” 
普 升 闷 值 总 是 在 1 到 MaxTenuringThreshold 之 间 取 值 。 即 使 JVM 启动 时 将 初始 晋升 冰 值 
设置 为 最 大 值 ， 这 个 参数 也 不 一 定 会 一 直 保 持 ，JVM 可 能 会 在 某 个 时 刻 减 小 这 个 闵 值 。 


使 用 两 个 标志 可 以 通过 极端 的 方式 避免 出 现 这 种 情况 。 如 果 你 确切 地 知道 新 生 代 垃圾 收 
集 存活 下 来 的 对 象 在 之 后 很 长 的 一 段 时 间 内 都 会 存在 ， 可 以 使 用 -XX:+AlwaysTenure 标 
志 (默认 值 为 false)， 开 启 这 个 标志 的 效果 与 将 MaxTenuringThreshold 设置 为 0 的 效 
果 在 本 质 上 是 一 样 的 。 然 而 ， 只 有 非常 军 见 的 情况 才 需 要 开启 这 个 标志 ， 启 用 之 后 对 象 
会 直接 晋升 到 老年 代 ， 不 会 再 存放 于 Survivor 空间 。 
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第 二 个 标志 是 -XX:+NeverTenure (默认 值 也 是 false)。 这 个 标志 有 两 方面 的 影响 : 设置 
参数 后 JVM 会 认为 初始 晋升 阅 值 和 最 大 普 升 阅 值 都 无 限 大 ; 一 旦 设置 了 该 参数 ，JVM 
就 不 再 调整 晋升 国 值 ， 也 不 会 将 其 降低 。 换 向 话 说 ， 开 局 -XX:+NeverTenure 标志 后 只 要 
Survivor 空间 有 容量 ， 就 不 会 有 对 象 被 晋升 到 老年 代 。 





我 们 已 经 学 习 了 很 多 的 参数 ， 那 么 什么 情况 下 应 该 使 用 哪些 参数 呢 ? 观察 晋升 的 统计 信息 
能 够 帮助 我 们 更 好 地 做 出 决定 。 使 用 -XX:+PrintTenuringDistribution 标志 可 以 在 GC 日 
志 中 增加 这 部 分 信息 (默认 情况 下 ，-XX:+PrintTenuringDistribution 的 值 为 faLse) 。 


查看 GC 日 志 时 ， 最 重要 的 是 观察 在 Minor GC 中 是 否 存在 由 于 Survivor 空间 过 小 ， 对 象 
直接 晋升 到 老年 代 的 情况 。 我 们 要 尽量 避免 发 生 这 种 情况 : 如 果 大 量 的 短期 对 象 最 终 填 满 
老年 代 ， 会 导致 频繁 的 Full GC。 


使 用 Throughput 收集 器 时 ， 判 断 发 生 了 这 种 情况 的 唯一 线索 是 下 面 这 几 行 GC 日志 : 


Desired survivor size 39059456 bytes, new threshold 1 (max 15) 
[PSYoungGen: 657856K->35712K(660864K)] 
1659879K->1073807K(2059008K) ，0.0950040 secs] 

[Times: user=0.32 sys=0.00, real=0.09 secs] 


从 日 志 中 我 们 看 到 ， 例 子 中 一 个 Survivor 空间 期 望 的 大 小 是 39 MB， 新 生 代 的 总 大 小 为 
660 MB: JVM 据 此 计算 出 两 个 Survivor 空间 大 约 要 占用 11% 的 新 生 代 空间 。 不 过 这 又 留 
给 我 们 一 个 癌 题 : 这 部 分 空间 是 否 已 经 足够 大 ， 是 否 能 避免 发 生 新 生 代 到 老年 代 的 次 出 。 
垃圾 收集 日 志 无 法 直接 回答 这 个 问题 ， 但 是 从 JVM 将 晋升 国 值 调整 到 1 这 个 事实 ， 我 们 
可 以 判断 JVM 会 直接 晋升 大 部 分 对 象 到 老年 代 ， 并 据 此 将 晋升 国 值 减 小 到 1。 这 个 应 用 极 
可 能 在 Survivor 空间 还 未 完全 填 满 时 就 将 对 象 直接 晋升 到 老年 代 。 


使 用 G1 收集 器 或 CMS 收集 器 时 ， 我 们 可 以 从 垃圾 收集 日 志 中 获取 更 多 的 信息 : 


Desired survivor size 35782656 bytes, new threshold 2 (max 6) 
- age 1: 33291392 bytes， 33291392 total 
- age 2: 4098176 bytes， 37389568 total 


期 望 的 Survivor 空间 与 上 一 个 例子 很 相似 ， 大 约 是 33 MB， 但 是 我 们 能 看 到 更 多 信息 ， 包 
括 Survivor 空间 中 所 有 对 象 的 大 小 。 由 于 需要 晋升 37 MB 的 数据 ，Survivor 空间 的 确 会 发 
生 滋 出 。 

这 种 情况 能 否 通过 调 优 改善 取决 于 应 用 程序 自身 的 特性 。 如 果 对 象 的 生命 周期 很 长 ， 跨 
越 多 个 垃圾 收集 周期 ， 无 论 怎样 调整 它们 最 终 都 会 移动 到 老年 代 ， 在 这 种 情况 下 ， 调 整 
Survivor 空间 和 晋升 国 值 不 会 有 太 大 的 帮助 。 但 是 ， 如 果 对 象 经 过 几 个 GC 周期 就 会 被 回 
收 ， 合 理 安排 Survivor 空间 更 高 效 地 加 以 利用 ， 能 够 提升 一 定 的 程序 性 能 。 

如 果 (通过 减 小 生存 比率 的 方式 ) 增 大 Survivor 空间 的 大 小 ， 内 存 由 新 生 代 的 Eden 空间 
划分 到 Survivor 空间 。 不 过 对 象 的 分 配 都 发 生 在 Eden 空间 ， 这 意味 着 在 Minor GC 之 前 能 
分 配 的 对 象 数目 会 更 少 。 因 此 ， 我 们 不 推荐 采用 这 种 方式 。 


另 一 种 可 能 是 增 大 新 生 代 的 大 小 。 采 用 这 种 方式 的 效果 可 能 事与愿违 : 虽然 对 象 晋 升 到 老 
年 代 的 频率 降低 了 ， 但 是 老年 代 空 间 变 得 更 小 ， 应 用 程序 可 能 会 更 频繁 地 发 生 Full GC。 
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如 果 堆 的 大 小 可 以 同时 增加 ， 那 么 新 生 代 和 老年 代 都 能 获得 更 多 的 内 存 ， 这 是 最 好 的 解 
决 方案 。 推 荐 的 流程 是 增 大 堆 的 大 小 (或 者 至 少 增 大 新 生 代 )， 同 时 减 小 存活 率 。 采 用 这 
种 方法 Survivor 空间 增 大 的 值 会 比 Eden 空间 的 增长 更 大 。 应 用 程序 最 终 的 新 生 代 垃 圾 
收集 次 数 与 调节 之 前 基本 持平 。 不 过 Full FC 的 次 数 会 更 少 ， 因 为 晋升 到 老年 代 的 对 象 数 
更 少 了 (再 次 重申 ， 这 种 调 优 适用 的 应 用 程序 ， 其 大 多 数 对 象 在 儿 个 GC 周期 之 后 就 不 
再 存活 )。 


如 果 Survivor 空间 经 过 调整 后 不 再 发 生 液 出， 对象 只 有 在 经 历 的 GC 周期 数 达到 
MaxTenuringThreshold 的 设 定 值 时 才 会 晋升 到 老年 代 。 我 们 可 以 增 大 MaxTenuringThreshold 
值 ， 让 对 象 在 Survivor 空间 中 停留 更 多 的 周期 。 但 是 ， 我 们 也 要 注意 ， 晋 升 国 值 增 大 ， 对 
象 在 Survivor 空间 停留 的 时 间 越 长 ， 将 来 的 新 生 代 收集 中 ，Survivor 空闲 空间 就 会 越 少 : 
越 有 可 能 发 生 Survivor 空间 溢出 ， 对 象 再 次 被 直接 晋升 到 老年 代 。 


快速 小 结 

1. 设计 Survivor 空间 的 初衷 是 为 了 让 对 象 (尤其 是 已 经 分 配 的 对 象 ) 在 新 
生 代 停留 更 多 的 GC 周期 。 这 个 设计 增 大 了 对 象 晋 升 到 老年 代 之 前 被 
收 释放 的 几率 。 

2. 如果 Survivor 空间 过 小 ， 对 象 会 直接 晋升 到 老年 代 ， 从 而 触发 更 多 的 老 
年 代 GC。 

3. 解决 这 个 问题 的 最 好 方法 是 增 大 堆 的 大 小 (或 者 至 少 增 大 新 生 代 )， 让 
JVM 来 处 理 Survivor 空间 的 回收 。 

4. 有 的 情况 下 ， 我 们 需要 避免 对 象 亚 升 到 老年 代 ， 调 整 晋 升 阅 值 或 者 
Survivor 空间 的 大 小 可 以 避免 对 象 晋 升 到 老年 代 。 


6.4.2 ”分配 大 对 象 

这 一 市 会 详细 介绍 JVM 是 如 何 分 配对 象 的 。 这 是 一 些 非常 有 趣 的 背景 知识 ， 了 解 这 些 
对 于 调 优 需 要 频繁 创建 大 量 大 型 对 象 的 应 用 尤其 重要 。 这 一 节 的 上 下 文中 ,“ 大 型 ”是 
一 个 相对 的 概念 ， 正如 我 们 后 面 会 看 到 的 ， 它 取决 于 JVM 内 的 “线程 本 地 分 配 缓冲 区 ” 
(Thread Local Allocation Buffer，TLAB ) 。 


TLAB 的 大 小 是 各 种 垃圾 收集 算法 进行 垃圾 收集 时 都 要 考虑 的 因素 ， 除 此 之 外 ，G1 收集 
器 对 超大 型 对 象 还 有 一 些 额 外 的 考量 (再 次 重申 ， 大 型 是 个 相对 的 术语 ， 对 于 2 GB 的 堆 ， 
对 象 大 小 如 果 超 过 512 MB 就 算 大 型 对 象 )。G1 收集 器 在 收集 巨型 对 象 时 效果 非常 显著 ， 
对 线程 本 地 分 配 缓冲 区 的 大 小 调整 (使 用 一 般 的 垃圾 收集 器 ， 为 了 处 理 较 大 对 象 ) 则 并 不 
常见 ， 不 过 ，G1 收集 器 的 分 区 大 小 调整 (使 用 G1 收集 器 时 ， 为 了 处 理 巨 型 对 象 ) 就 比较 
司空 见 惯 了 。 

1.TLAB 

第 5 章 讨 论 了 对 象 是 如 何在 Eden 空间 中 分 配 的 ， Eden 空间 让 更 快 地 进行 对 象 分 配 成 为 
可 能 (尤其 是 对 于 分 配 之 后 又 被 迅速 回收 的 对 象 ) 。 


结果 表明 ，Eden 空间 中 对 象 分 配 速度 更 快 的 原因 是 每 个 线程 都 有 一 个 固定 的 分 区 用 于 分 
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配对 象 ， 即 一 个 TLAB。 对 象 在 一 个 共享 的 空间 中 分 配 ， 我 们 需要 采用 一 些 同 步 机 制 来 
管理 空间 内 的 空闲 空间 指针 。 每 个 线程 有 固定 的 分 配 区 域 ， 分 配对 象 时 ， 线 程 之 间 不 需 
要 进行 任何 的 同步 。( 这 是 利用 线程 本 地 变量 避免 锁 争 用 (详细 内 容 请 参考 第 9 章 ) 的 一 
个 变种 。) 

通常 ，TLAB 的 使 用 对 程序 员 和 终端 用 户 而 言 是 完全 透明 的 : 默认 情况 下 TLAB 就 是 开启 
的 ，JVM 管理 着 它们 的 大 小 及 如 何 使 用 。 我 们 需要 意识 到 的 最 重要 的 事 是 TLAB 都 不 大 ， 
因此 大 型 对 象 无 法 在 TLAB 内 进行 分 配 。 大 型 对 象 必须 直接 从 堆 上 分 配 ， 由 于 需要 同步 ， 
这 会 消耗 额外 的 时 间 。 
一 旦 TLAB 空间 用 尽 ， 特 定 大 小 的 对 象 就 无 法 再 继续 分 配 。 这 时 ，JVM 可 以 有 不 同 的 选 
择 。 一 个 选项 是 回收 这 块 TLAB ， 为 该 线程 分 配 一 块 新 的 TLAB。 由 于 TLAB 只 是 Eden 空 
间 中 的 一 个 区 段 ， 下 一 次 新 生 代 垃圾 收集 时 这 块 TLAB 整个 都 会 被 回收 ， 并 在 之 后 的 空间 
分 配 中 重用 。 除 此 之 外 ，JVM 还 可 以 直接 在 堆 上 分 配对 象 ， 保 留 当 前 的 TLAB 不 动 (至 少 
在 线程 分 配 新 的 对 象 到 TLAB 之 前 保持 不 变 )。 假 设 发 生 下 面 这 种 情况 ，TLAB 的 大 小 为 
100 KB， 其 中 75 KB 都 已 经 被 占用 。 这 时 来 了 个 新 的 空间 分 配 请 求 ， 需 要 分 配 30 KB 的 
空间 ， 我 们 可 以 回收 整个 TLAB ， 这 种 方式 会 浪费 25 KB 的 Eden 空间 。 或 者 直接 在 堆 上 
分 配 这 个 对 象 ， 如 果 下 一 次 的 对 象 分 配 空间 要 求 小 于 等 于 25 KB， 线程 还 可 以 将 TLAB 的 
空闲 空间 分 配给 这 些 对 象 。 

JVM 提供 了 各 种 参数 可 以 控制 这 些 行为 (本 节 后 面 会 详细 讨论 这 些 参数 )， 但 这 一 切 都 取 
决 于 TLAB 大 小 。 上 默认 情 况 下 ，TLAB 的 大 小 由 三 个 因素 决定 : 应 用 程序 的 线程 数 、Eden 
空间 的 大 小 以 及 线程 的 分 配 率 。 


因此 两 类 的 应 用 程序 会 受益 于 TLAB 参数 的 调整 : 需要 分 配 大 量 巨型 对 象 的 应 用 程序 ， 以 
及 相对 于 Eden 空间 的 大 小 而 言 ， 应 用 程序 线程 数量 过 多 的 应 用 。 默 认 情 况 下 ，TLAB 就 
是 开局 的 ;使 用 -XX: -UseTLAB 可 以 关闭 TLAB， 不 过 考虑 到 TLAB 带 来 的 性 能 提升 ， 关闭 
这 个 功能 不 是 个 明智 的 决定 。 

由 于 TLAB 空间 大 小 的 计算 在 一 定 程度 上 基于 线程 的 分 配 率 ， 我 们 不 大 可 能 准确 预测 应 用 
程序 的 TLAB 大 小 。 我 们 能 做 的 是 监控 TLAB 的 分 配 情况 ， 看 是 否 有 任何 对 象 的 分 配 发 生 
在 TLAB 之 外 。 如 果 发 现 大 量 的 对 象 分 配 发 生 在 TLAB 之 外 ， 我 们 有 两 种 选择 : 减 小 分 配 
对 象 的 大 小 ， 或 者 调整 TLAB 的 参数 。 


与 其 他 的 工具 比较 起 来 ，JFR 在 TLAB 分 配 的 监控 方面 要 强大 得 多 。 图 6-9 展示 了 使 用 
JFR 记录 TLAB 分 配 的 示例 截屏 。 
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Thread Local Allocation Buffer (TLAB) Statistics Thread Local Allocation Buffer (TLAB) Sizes 
1LAB Count ,452 
Maximum TLAB Size 2.02 MB 2.00 MB 
Minimum TLAB Size 1.35 MB 175MB 
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图 6-9: JFR 中 的 TLAB 视图 





在 这 段 5 秒 钟 的 记录 中 ，49 个 对 象 分 配 发 生 在 TLAB 之 外 ， 这些 对 象 的 最 大 值 为 48 字 


市 。 由 TLAB 的 最 小 值 为 1.35 MB 我 们 得 知 ， 这 些 对 象 被 分 配 到 堆 上 的 原因 是 空间 分 配 时 
TLAB 已 经 耗 尽 : 它们 不 是 由 于 对 象 大 小 的 原因 被 直接 分 配 到 了 堆 上 。 这 种 情况 通常 发 生 

















在 新 生 代 垃圾 回收 之 前 (由 于 Eden 空间 耗 尽 ， 而 TLAB 是 Eden 空间 切 出 来 的 一 部 分 ) 。 


这 段 时 间 内 ， 对 象 分 配 的 总 大 小 为 1.59 KB ， 这 个 例子 中 无 论 是 分 配 的 数量 ， 还 是 分 配 的 


大 小 都 不 是 问题 。 总 会 有 一 些 对 象 在 TLAB 之 外 分 配 ， 尤 其 是 当 
生 代 收集 的 边缘 时 。 我 们 可 以 对 比 这 个 例子 跟 图 6-10 中 的 情况 ， 
生 在 TLAB 之 外 。 


Eden 空间 的 使 用 接近 新 
图 6-10 中 大 量 的 分 配 发 
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图 6-10: 大 量 的 分 配 发 生 在 TLAB 之 外 
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这 段 记 录 中 ，TLAB 中 内 存 分 配 的 总 数 是 952.96 MB ，TLAB 之 外 对 象 分 配 使 用 的 总 内 存 
数 是 568.32 MB 。 对 于 这 个 例子 ， 无 论 是 改变 应 用 程序 ， 使 用 更 小 的 对 象 ， 还 是 调整 JVM 
将 更 大 的 TLAB 分 配给 这 些 对 象 ， 都 能 取得 不 错 的 效果 ; 我 们 甚至 可 以 得 到 这 些 对 象 分 配 
时 的 堆栈 。 如 果 TLAB 分 配 中 发 生 了 问题 ， 使 用 JFR 能 迅速 地 定位 出 到 底 什么 地 方 出 现 了 
问题 。 


对 于 开源 版 本 的 JVM (不 附带 JFR)， 要 监控 TLAB 的 分 配 情况 ， 最 好 的 途径 就 是 在 命令 
行 中 添加 -XX:+PrintTLAB 标志 。 这 样 ， 每 次 新 生 代 垃圾 收集 时 ，GC 日 志 中 就 同时 包含 了 
两 种 类 型 的 信息 每 个 线程 都 有 一 行 描述 该 线程 的 TLAB 使 用 情况 ， 以 及 一 行 摘要 信息 ， 
描述 JVM 整体 的 TLAB 使 用 情况 。 

每 个 线程 一 行 的 日 志 如 下 所 示 : 


TLAB: gc thread: Ox00007f3c10b8f800 [id: 18519] desired_size: 221KB 
slow allocs: 8 refill waste: 3536B alloc: 0.01613 11058KB 
refills: 73 waste 0.1% gc: 10368B slow: 2112B fast: 0B 


输出 中 的 gc 表明 这 一 行 日 志 是 在 垃圾 回收 时 输出 的 ， 线程 自身 是 一 个 常规 的 应 用 线程 。 
线程 的 TLAB 大 小 是 221 KB。 从 上 次 新 生 代 收集 开始 ， 已 经 有 八 个 对 象 在 堆 上 分 配 (slow 
allocs) ;占线 程 分 配对 象 总 量 的 1.6% (0.01613)， 总 计 大 小 为 11 058 KB。TLAB 空间 的 
0.1% 被 “浪费 ”了 ， 主 要 的 源头 是 三 件 事 : 并 发 垃圾 收集 启动 时 TLAB 中 的 10 336 字 节 
空间 被 回收 释放 ， 其 他 (释放 的 ) TLAB 中 2112 字 节 被 释放 ， 以 及 “快速 ”分 配器 分 配 的 
空间 大 小 为 “0” 字 节 。 

每 个 线程 的 TLAB 数据 输出 后 ，JVM 还 会 输出 一 条 概略 日 志 ， 如 下 所 示 : 

TLAB totals: thrds: 66 refills: 3234 max: 105 


slow allocs: 406 max 14 waste: 1.1% gc: 7519856B 
max: 211464B slow: 120016B max: 4808B fast: OB max: OB 


在 这 个 例子 中 ， 从 上 次 新 生 代 垃圾 收集 起 ，66 个 线程 进行 了 各 种 形式 的 内 存 分 配 。 这 些 
线程 总 共 填 充 了 TLAB 3234 次 ， 最 活跃 的 线程 填充 了 它 的 TLAB 105 次 。 总 共 在 堆 上 分 配 
了 406 次 对 象 (一 个 线程 最 多 分 配 了 14 次 对 象 )， 并 且 TLAB 中 有 1.1% 的 空闲 空间 由 于 
TLAB 空间 的 释放 被 浪费 。 

在 每 个 线程 的 日 志 中 ， 如 果 发 现 线程 有 大 量 的 对 象 分 配 发 生 在 TLAB 之 外 ， 就 应 该 考虑 对 
TLAB 进行 调整 了 。 

2. 调整 TLAB 的 大 小 

对 于 花费 大 量 时 间 在 TLAB 之 外 分 配对 象 的 应 用 程序 ， 将 分 配 移 动 到 TLAB 之 内 能 有 效 提 
升 应 用 程序 的 性 能 。 如 果 只 有 极 少 数 对 象 的 分 配 发 生 在 TLAB 之 外 ， 提 升 性 能 最 好 的 方案 
是 修改 应 用 程序 。 

如 果 不 可 能 变更 应 用 程序 代码 ， 你 还 可 以 尝试 通过 调整 TLAB 的 大 小 来 适 配 应 用 程序 的 
和 需要。 由 于 TLAB 的 大 小 基于 Eden 空间 ， 通 过 参数 调整 ( 增 大 ) Eden 空间 会 自动 增 大 
TLAB 的 大 小 。 


使 用 -XX:TLABSize=W 标 志 可 以 显 式 地 指定 TLAB 的 大 小 〈 默 认为 0， 表示 使 用 前 面 介绍 的 





























































































































方法 动态 计算 得 出 )。 这 个 标志 只 能 设置 TLAB 的 初始 大 小 ;为 了 避免 在 每 次 GC 时 都 调 
整 TLAB 的 大 小 ， 可 以 使 用 -XX: -ResizeTLAB 标志 (大 多 数 的 平台 上 ， 这 个 参数 的 默认 值 
都 是 true)。 这 是 通过 调整 TLAB， 充 分 提升 对 象 分 配 性 能 最 简单 的 方法 (坦率 地 说 ， 通 
常 这 也 是 最 有 效 的 方法 )。 

一 个 新 的 对 象 无 法 适 配 到 当前 的 TLAB 中 (但 是 可 以 容纳 于 一 个 新 的 、 空 闲 的 TLAB 中 ) 
时 ，JVM 就 需要 做 一 些 抉择 : 到 底 是 在 堆 上 分 配 这 个 对 象 ， 还 是 要 回收 当前 的 TLAB， 重 
新 分 配 一 个 新 的 TLAB 来 完成 这 次 对 象 分 配 ， 这 个 决策 取决 于 儿 个 参数 。TLAB 日 志 的 输 
出 中 ，refill waste 的 值 代表 了 决策 的 当前 国 值 : 如 果 TLAB 无 法 容纳 新 对 象 的 大 小 超过 
这 个 浆 值 ， 那 么 就 会 在 堆 上 分 配 新 的 对 象 。 如 果 有 问题 的 对 象 的 大 小 比 这 个 国 值 小 ， 就 回 
收 老 的 TLAB 空间 。 


这 个 值 是 动态 计算 得 出 的 ， 但 是 默认 的 初始 值 是 TLAB 大 小 的 1%， 或 者 是 由 参数 
-XX:TLABNasteTargetPercent=W 特 别 设 定 的 值 。 每 当 发 生 堆 上 的 分 配 ， 这 个 值 就 增 大 一 
笔 ， 增 量 值 由 参数 -XX:TLABWasteIncrement=N 设 定 (默认 值 为 4)。 这 种 设计 能 够 避免 线 
程 达到 TLAB 空间 占用 的 靖 值 ， 从 而 持续 地 在 堆 上 分 配对 象 : 随 着 目标 百分比 (Target 
Percentage) 的 增 大 ，TLAB 空间 被 回收 的 几率 也 在 增加 。 调 整 TLABWasteTargetPercent 参 
数 的 结果 往往 同时 伴随 着 TLAB 空间 大 小 的 调整 ， 所 以 ， 虽 然 可 以 调整 这 个 参数 ， 但 是 效 
果 往 往 不 那么 确定 。 

最 终 ，TLAB 空间 调整 生效 时 ， 其 容量 的 最 小 值 可 以 使 用 -XX:MinTLABSize=N 参数 设置 ( 默 
认为 2KB)。TLAB 空间 的 最 大 容量 略 小 于 1 GB (使 用 整 型 数组 可 以 用 到 TLAB 空间 的 最 
大 上 限 ， 由 于 对 象 对 齐 的 原因 ， 最 大 上 限 会 向 下 圆 整 )， 并 且 不 能 修改 。 


快速 小 结 
对 需要 分 配 大量 大 型 对 象 的 应 用 ，TLAB 空间 的 调整 就 变 得 必 不 可 少 (不 过 ， 
通常 情况 下 ， 我 们 更 推荐 在 应 用 程序 中 使 用 小 型 对 象 的 做 法 )。 

























































































3. 巨型 对 象 (Humongous Objects) 

对 TLAB 空间 中 无 法 分 配 的 对 象 ，JVM 会 尽量 尝试 在 Eden 空间 中 进行 分 配 。 如 果 Eden 
空间 无 法 容纳 该 对 象 ， 就 只 能 在 老年 代 中 分 配 空间 。 而 这 种 内 存 布局 打 乱 了 该 对 象 正常 的 
垃圾 回收 周期 ， 如 果 它 是 一 个 短期 存在 的 对 象 ， 还 会 对 垃圾 收集 造成 负面 的 影响 。 对 于 这 
种 情况 ， 除 非 修改 应 用 程序 ， 放 弃 使 用 那些 短期 存在 的 巨型 对 象 ， 否 则 别 无 它 法 。 


G1 收集 器 使 用 不 同 的 方法 处 理 巨型 对 象 ， 不 过 如 果 对 象 的 大 小 超过 了 G1 收集 器 的 分 区 ， 
这 些 对 象 也 会 被 分 配 到 老年 代 。 因 此 ， 对 于 使 用 大 量 巨型 对 象 的 应 用 程序 ， 即 使 使 用 G1 
收集 器 还 是 需要 特别 的 调 优 才 能 弥补 这 部 分 的 性 能 损失 。 

4. G1 分 区 的 大 小 

G1 收集 器 将 堆 划 分 成 了 一 定数 量 的 分 区 ， 每 个 分 区 的 大 小 都 是 国定 的 。 分 区 的 大 小 不 是 
动态 变化 的 ， 具体 的 值 是 启动 时 ， 依 据 堆 大 小 的 最 小 值 ( 即 xms 的 值 ) 得 出 的 。 分 区 大 小 
的 最 小 值 是 1 MB。 如 果 堆 的 最 小 值 超 过 2 GB， 分 区 的 大 小 会 依据 下 面 的 公式 计算 得 出 
(使 用 基数 为 2， 取 log 的 算法 ) : 
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分 区 大 小 = 1 << log( 初 始 堆 的 大 小 / 2048); 


简 言 之 ， 初 始 划分 堆 时 ， 分 区 的 大 小 是 2 的 最 小 的 N 次 里 ， 使 其 结果 最 接近 于 2048 个 分 
区 。 这 里 还 有 一 些 最 小 、 最 大 值 的 限制 ， 分 区 的 大 小 最 小 是 1 MB ， 最 大 不 能 超过 32 MB 。 
表 6-3 列 出 了 所 有 的 可 能 性 。 


表 6-3: G1 收 集 器 的 默认 分 区 大 小 























堆 的 大 小 默认 G1 分 区 的 大 小 
小 于 4GB 1 MB 
介 于 4GB 到 8 GB 之 间 2 MB 
介 于 8 GB 到 16 GB 之 间 4MB 
介 于 16 GB 到 32 GB 之 间 8 MB 
介 于 32 GB 到 64 GB 之 间 16 MB 
大 于 64 GB 32 MB 





G1 分 区 的 大 小 可 以 通过 -XX:G1lHeapRegionSize=N 标 志 设 置 (正常 情况 下 ， 默 认 值 是 0， 意 
味 着 使 用 刚才 描述 的 动态 算法 计算 )。 设 定 的 参数 值 应 该 是 2 的 需 (譬如 : 1 MB 或 者 2 
MB) ;否则 ， 这 个 值 会 向 下 圆 整 到 最 接近 2 的 寡 。 
































G1 收集 的 分 区 调整 及 大 堆 
通常 情况 下 ，G1 收集 器 分 区 的 大 小 调整 只 有 在 处 理 巨型 对 象 分 配 时 才 需 要 进行 ， 但 是 也 
有 一 种 例外 的 情形 。 


如 果 应 用 程序 设 定 了 一 个 非常 大 的 堆 区 间 ， 壁 如 -Xms2G -Xmx326， 这 种 情况 下 分 区 的 大 
小 是 1 MB。 当 堆 充 分 扩张 时 ，G1 收集 器 的 分 区 数 可 以 高 达 32 000 个 。 这 是 一 个 数量 巨 
大 的 待 处 理 分 区 ，G1 收集 算法 最 初 的 设计 并 没有 针对 这 样 大 量 的 分 区 ， 它 期 望 的 分 区 数 
是 2048 个 左右 。 这 个 例子 中 ， 增 大 G1 收集 器 分 区 的 大 小 能 提高 G1 垃圾 收集 的 效率 ; 我 
们 需要 依据 堆 的 大 小 选择 合适 的 分 区 大 小 ， 让 分 区 的 数量 尽量 接近 2048 个 。 











5. 使 用 G1 收 集 器 分 配 巨型 对 象 

如 果 G1 收集 器 的 分 区 大 小 是 1 MB ， 应 用 程序 分 配 了 个 2 百 万 字 节 的 数组 ， 这 个 数组 是 
没有 办 法 在 一 个 G1 分 区 中 存放 的 。 但 是 这 些 巨型 对 象 又 必须 被 保存 在 连续 的 G1 分 区 内 。 
如 果 G1 分 区 的 大 小 是 1 MB， 程 序 分 配 了 个 3.1 MB 的 数组 ，G1 收集 器 必须 在 老年 代 内 
找到 4 个 连续 的 分 区 才能 完成 这 次 分 配 工作 〈 最 后 一 个 分 区 的 剩余 部 分 会 保持 空间 ， 导 致 
0.9 MB 的 空间 浪费 )。 这 种 做 法 成 功 地 打败 了 G1 收集 器 传统 的 收集 方式 ， 即 压缩 ， 它 能 
够 依据 分 区 的 满 溢 程 度 自主 地 选择 回收 哪些 分 区 。 通 常 ， 为 了 找到 连续 的 分 区 ，G1 收集 
器 还 不 得 不 启动 Full GC。 


由 于 巨型 对 象 直接 在 老年 代 中 分 配 ， 它 们 不 会 被 新 生 代 垃 圾 收集 所 回收 。 因 此 ， 如 果 短 寿 
型 对 象 采用 这 种 方式 分 配 ， 收 集 器 的 分 代 机 制 就 不 再 生效 。 巨 型 对 象 只 能 在 G1 收集 器 的 
并 发 周期 中 回收 。 好 消息 是 ， 巨 型 对 象 的 回收 会 更 迅速 ， 因 为 它 是 所 在 分 区 唯一 的 对 象 。 
巨型 对 象 会 在 并 发 周期 中 的 清理 阶段 (而 不 是 混合 式 GC 阶段 ) 被 回收 释放 。 

























































































增 大 G1 分 区 的 大 小 ， 让 其 能 够 在 一 个 分 区 内 分 配 应 用 需要 的 所 有 对 象 能 够 提升 G1 收集 
的 效率 。 为 了 判断 应 用 的 Full GC 是 否 源 于 巨型 对 象 的 分 配 ， 我 们 需要 开启 自 适应 大 小 调 
整 (Adaptive Size Policy) GC 的 日 志 记 录 。 应 用 程序 分 配 巨 型 对 象 时 ，G1 收集 器 首先 会 
尝试 启动 一 个 并 发 周期 。 
5.349: [GiErgonomics (Concurrent Cycles) request concurrent cycle initiation, 
reason: occupancy higher than threshold, occupancy: 483393536 bytes, 


allocation request: 524304 bytes, threshold: 483183810 bytes (45.00 %), 
source: concurrent humongous allocation] 








5.350: [GC pause (young) (initial-mark) 0.349: [GiErgonomics 
(CSet Construction) start choosing CSet, _pending_cards: 
1624, predicted base time: 19.74 ms, remaining time: 180.26 ms， 
target pause time: 200.00 ms] 


这 行 日 志 表 明 发 生 了 巨型 对 象 分 配 ， 触 发 了 并 发 G1 周期 。 在 这 个 例子 中 ， 对 象 分 配 成 功 ， 
没有 堆 垃 圾 收集 的 其 他 方面 造成 影响 (G1 收集 器 刚好 找到 了 需要 的 连续 分 区 ) 。 


如 果 G1 收集 器 没有 找到 连续 的 空间 分 区 ， 就 会 启动 一 次 Full GC: 


25.270: [GilErgonomics (Heap Sizing) attempt heap expansion, 
reason: allocation request failed, allocation request: 48 bytes] 
25.270: [GiErgonomics (Heap Sizing) expand the heap, 
requested expansion amount: 1048576 bytes, 
attempted expansion amount: 1048576 bytes] 
25.270: [GiErgonomics (Heap Sizing) did not expand the heap, 
reason: heap expansion operation failed] 
25.270: [Full GC 1535M->1521M(3072M) ，1.0358230 secs] 
[Eden: 0.0B(153.0M)->0.0B(153.0M) 
Survivors: 0.0B->0.0B Heap: 1535.9M(3072.0M)->1521.3M(3072.0M)] 
[Times: user=5.24 sys=0.00, real=1.04 secs] 


由 于 堆 无 法 为 适 配 新 的 巨型 对 象 而 进行 扩展 ， 因 此 为 了 给 分 配 请 求 提供 连续 的 
分 区 ，G1 收集 器 只 能 进行 Full GC。 在 这 种 情况 下 ,一 旦 发 生 问 题 ， 即 便 是 开启 
PrintAdaptiveSizePotLicy 标志 也 无 法 提供 更 多 的 垃圾 回收 日 志 ， 标 准 的 G1 垃圾 收集 日 志 
也 无 法 提供 足够 的 信息 ， 以 诊断 问题 的 根源 。 


为 了 避免 发 生 这 种 Ful GC， 首 先是 要 确定 导致 问题 的 巨型 对 象 大 小 (本 例 中 ， 从 垃圾 收 
集 日 志 中 定位 的 对 象 大 小 是 524 304 字 市 )。 接 下 来 ,需要 判断 是 否 有 办 法 减少 程序 中 这 些 
对 象 的 大 小 。 下 下 策 才 是 针对 这 些 对 象 ， 调 整 JVM。 如 果 无 法 减少 对 象 的 大 小 ， 就 需要 计 
算 容纳 这 些 对 象 所 需要 的 分 区 大 小 。 如 果 对 象 占 用 的 空间 达到 分 区 容量 的 50% 以 上 ，G1 
收集 器 就 认为 这 是 个 巨型 对 象 。 因 此 ， 这 个 例子 中 ， 如 果 被 质疑 的 对 象 大 小 为 524 304 字 
市 ，G1 分 区 的 大 小 至 少 应 该 是 1.1 MB。 由 于 G1 收集 算法 中 ， 分 区 的 大 小 总 是 2 的 需 ， 
所 以 G1 分 区 的 大 小 应 该 为 2MB， 才 能 保持 在 标准 的 G1 分 区 中 完成 这 些 对 象 的 分 配 。 


快速 小 结 

1. G1 分 区 的 大 小 是 2 的 需 ， 最 小 值 为 1 MB。 

2. 如 果 堆 的 初始 大 小 跟 最 大 值 相差 很 大 ， 这 种 堆 会 有 大 量 的 G1 分区， 在 这 
种 情况 下 ， 应 该 增 大 G1 分 区 的 大 小 。 
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3. 如 果 要 分 配 的 对 象 大 小 超过 了 G1 收集 器 分 区 容量 的 一 
用 程序 ， 我 们 应 该 增 大 G1 分 区 的 容量 ， 让 G1 分 区 能 更 好 地 适 




















# ， 对 于 这 种 应 


配 这 些 


对 象 。 遵 循 这 个 原则 ， 应 用 程序 分 配对 象 的 大 小 至 少 应 是 512 KB (因为 
G1 分 区 的 最 小 值 为 1 MB )。 


6.4.3 ” AggressiveHeap 标 志 
AggressiveHeap 在 非常 早期 的 Java 版 本 中 就 已 经 引入 (默认 为 false)。 那 个 时 候 ， 配 置 了 





种 命令 行 参数 。 这 个 标志 只 适用 于 64 位 的 JVM。 
虽然 这 个 标志 已 经 更 换 了 很 多 个 版 本 ， 到 目前 依然 存在 ， 但 是 我 们 不 推荐 使 用 该 标志 ( 虽 
然 这 个 标志 暂时 还 没有 被 官方 正式 弃 用 )。 这 个 标志 的 问题 在 于 它 隐藏 了 很 多 实际 采用 的 
调 优 工作 ， 让 我 们 很 难 了 解 JVM 实际 运行 时 的 设置 。 它 的 一 些 参数 值 设置 是 依据 运行 


JVM 中 物理 机 的 情况 动态 调整 的 ， 











因此 ， 开 局 这 个 标志 有 时 对 性 能 








量 内 存 的 大 型 服务 器 也 只 运行 单一 的 JVM， 使 用 AggressiveHeap 标志 能 更 方便 地 设置 各 





影响 是 人 负 和 


| 的。 我 经 








常 看 到 使 用 这 个 标志 的 命令 行 ， 在 之 后 实际 运行 时 标志 被 动态 修改 的 情况 。( 对 于 历史 数 


据 ， 这 个 标志 可 能 会 


行为 是 不 确定 的 。) 


表 6-4 列 出 了 开启 AggressiveHeap 标志 后 会 被 自动 调整 的 参数 。 
表 6-4: 启用 AggressiveHeap 打 开 的 调 优 标志 








标志 值 

Xmx 所 有 内 存 的 2;， 或 者 所 有 的 内 存 ， 或 者 160 MB 
Xms 与 xmx 相同 

NewSize Xxmx 设 定 值 的 3/8 
UseLargePages true 

ResizeTLAB false 

TLABSize 256 KB 

UseParallelGC true 
ParallelGCThreads 与 当前 的 默认 值 相 同 
YoungPLABSize 256 KB (默认 为 4KB) 
OldpLABSize 8 KB (默认 为 1 KB) 


CompilationpolicyChoice 
ThresholdTolerance 
ScavengeBeforeFullGC 
BindGCTaskThreadsToCPUs 


0 (当前 默认 值 ) 
100 (默认 为 10) 
false (默认 为 true) 
true (默认 为 false) 








最 后 六 个 标志 相当 临 涩 ， 本 书 其 他 地 方 都 设 讨 论 过 。 简 和 





些 方面 oo 
PLAB 的 大 小 


PLAB 的 全 称 是 亚 升 本 地 分 配 组 


























效 : 不 过 ， 之 后 的 运行 时 命令 行 标志 值 会 改写 之 前 设 定 的 值 。 这 种 


地 说 ， 它 们 主要 负责 以 下 所 列 这 


h (Promotion-Local Allocation Buffer) ， 是 垃圾 回收 清 


理 代 数据 时 基于 线程 分 配 的 分 区 。 每 个 线程 都 能 晋升 对 象 到 自己 的 PLAB 中 ， 避 免 了 相 
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互 同步 的 需求 (工作 原理 与 TLAB 很 相似 )。 
编译 策略 
JVM 发 布 时 配备 了 多 种 JIT 编译 算法 。 当 前 默认 的 算法 也 曾经 一 度 是 实验 性 的 ， 但 是 
随 着 时 间 的 打磨 ， 它 们 不 断 完善 成 熟 ， 变 成 了 现在 推荐 的 策略 。 
关闭 Full GC 之 前 的 新 生 代 垃圾 收集 
将 ScavengeBeforeFuLLGC 标志 设置 为 false 意味 着 Full GC 发 生 时 ，JVM 不 会 对 Full 
GC 之 前 的 新 生 代 垃圾 进行 收集 。 通 常 这 不 是 件 好 事 儿 ， 因 为 这 意味 着 新 生 代 中 的 垃圾 
对 象 ( 针 对 的 是 能 够 进行 收集 的 垃圾 对 象 ) 会 妨碍 老年 代 的 对 象 被 回收 。 显 然 ， 这 些 设 
署 总 有 其 存在 的 理由 ， 不 论 过 去 或 者 现在 (至 少 是 在 进行 某 些 基 准 测试 时 可 能 有 需要 )， 
但 是 ， 我 们 通常 的 建议 是 不 要 修改 该 标志 。 
将 GC 线程 绑 定 到 特定 的 CPU 
对 上 述 列表 中 的 最 后 一 个 标志 进行 设置 意味 着 将 各 个 并 行 垃 圾 收集 线程 分 别 绑 定 到 特定 
的 CPU 〈 通 过 操作 系统 相关 的 调用 )。 有 些 非 常 极端 的 情况 ， 璧 如 垃圾 收集 线程 是 运行 
于 该 机 器 上 的 唯一 任务 ， 同 时 堆 的 容量 又 足够 大 时 ， 使 用 该 标志 是 有 意义 的 。 通 常情 况 
下 ， 最 好 允许 垃圾 收集 线程 在 所 有 可 用 的 CPU 上 运行 。 
跟 所 有 的 调 优 一 样 ， 各 个 方法 虽 有 不 同 ， 不 过 最 终 都 是 殊途同归 ， 如 果 经 过 认真 的 测试 ， 
发 现 使 用 AggressiveHeap 标志 的 确 改善 了 程序 性 能 ， 那 就 尽量 使 用 该 标志 。 唯 一 要 留意 的 
是 ， 我 们 需要 了 人 解 标志 的 背后 到 底 发 生 了 什么 样 的 调 优 。 应 意识 到 ， 一旦 JVM 进行 了 升 
级 ， 使 用 该 标志 带 来 的 所 有 性 能 提升 都 需要 重新 评估 。 


快速 小 结 

1，AggressiveHeap 是 个 历史 悠久 的 调 优 标志 ， 设 计 初 囊 是 为 了 在 强大 的 机 
器 上 运行 单一 JVM 时 调整 堆 的 各 种 参数 。 

2. 这 个 标志 设 定 的 值 并 没有 随 着 JVM 技术 的 发 展 同步 调整 ， 因 此 它 的 有 
效 性 从 长 远 来 看 是 值得 质疑 的 (虽然 到 目前 为 止 ， 这 个 标志 还 常常 被 
使 用 )。 


6.4.4 全 盘 掌 控 堆 空间 的 大 小 
本 书 5.2.1 市 “调整 堆 的 大 小 ”围绕 堆 的 初始 最 小 空间 和 最 大 空间 的 默认 值 展开 了 讨论 。 
这 些 值 的 设 定 取 决 于 机 器 的 内 存 以 及 JVM 已 经 使 用 了 多 少 内存 ， 并 且 之 前 介绍 的 设置 还 
存在 不 少 极端 情况 。 如 果 你 对 堆 的 默认 空间 大 小 是 如 何 计算 出 来 的 感到 好 奇 ， 读 完 这 一 市 
也 许 能 座 然 开朗 。 本 市 会 将 堆 空间 计算 的 内 幕 一 一 展现 在 你 眼前 。 我 们 要 介绍 的 内 容 包 括 
非常 底层 的 调 优 标志 ， 在 有 的 情况 下 ， 直 接 调整 堆 空间 的 计算 方法 (而 不 只 是 设置 堆 的 大 
小 ) 可 能 更 直观 。 艾 如 下 面 这 个 例子 : 你 希望 采用 通用 的 堆 大 小 (而 不 是 针对 每 个 虚拟 机 
单独 调 优 的 堆 ) 来 运行 多 个 JVM。 本 节 大 多 数 部 分 的 目标 还 是 介绍 堆 的 各 个 默认 选择 的 前 
世 今 生 ， 让 大 家 能 有 个 全 局 性 的 了 解 。 

堆 的 默认 大 小 依据 机 器 的 内 存 配置 确定 ， 不 过 也 可 以 通过 参 
情况 下 ， 这 个 值 是 由 JVM 检测 机 器 的 物理 内 存 计算 得 出 。 不 


























































































































数 -XX:MaxRAM=N 设 置 。 通 常 
过 ，JVM 同时 设置 了 一 些 限 
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制 ， 壁 如 对 于 32 位 的 client 编译 器 ，MaxRam 最 大 只 能 是 1 GB， 对 于 32 位 的 server 编译 
器 ，MaxRam 可 达 4 GB， 如 果 是 64 位 编译 器 ， 上 限 最 大 可 以 达到 128 GB 。 堆 的 最 大 容量 是 
MaxRAM 值 的 四 分 之 一 。 这 就 是 为 什么 堆 的 默认 大 小 在 不 同 的 机 器 上 会 有 不 同 的 原因 : 如 果 
机 器 的 物理 内 存 比 MaxRAM 的 值 小 ， 默 认 堆 的 大 小 就 是 物理 内 存 的 14。 但 是 ， 相 反 的 规则 
并 不 适用 ， 即 使 机 器 配置 了 数 百 GB 的 内 存 ，JVM 能 使 用 的 最 大 堆 容量 也 不 会 超过 默认 值 
32 GB， 即 128 GB 的 1/4。 


默认 最 大 堆 的 计算 实际 采用 下 面 的 公式 : 
Default Xmx = MaxRAM / MaxRAMFraction 


此 ， 上 默认 最 大 堆 的 大 小 也 可 以 通过 -XX:MaxRAMFraction=W 标 志 值 进行 调整 ， 
MaxRAMFraction 的 默认 值 为 4。 最 后 ， 为 了 让 堆 的 默认 值 调 整 更 加 完备 ，JVM 还 提供 了 另 
一 个 参数 调整 最 大 堆 的 默认 值 ， 这 个 参数 是 -XX:ErgoHeapSizeLimit=W。 该 参数 默认 值 为 0 
(表示 忽略 该 标志 ) ; 否则 ， 如 果 设 置 的 限制 值 比 MaxRAM/MaxRAMFraction 还 小 ， 就 使 用 该 
参数 指定 的 值 。 

另 一 方面 ， 如 果 机 器 配置 的 物理 内 存 非常 少 ，JVM 还 要 确保 预 留 足 够 的 内 存 给 操作 系统 使 
用 。 这 就 是 为 什么 在 内 存 只 有 192 MB 的 机 器 上 ，JVM 会 限制 最 大 堆 的 大 小 为 96 MB 甚至 
更 少 。 这 个 值 的 计算 是 基于 -XX:MinRAMFraction=N 参数 ， 默 认 值 为 2。 


if ((96 MB * MinRAMFraction) > Physical Memory) { 
Default Xmx = Physical Memory / MinRAMFraction; 




































































} 
计算 堆 的 初始 大 小 与 此 类 似 ， 不 过 相对 简单 一 些 ， 影 响 因 素 更 少 。 堆 的 初始 大 小 计算 采用 
下 面 的 公式 : 

Default Xms = MaxRAM / InitialRAMFraction 


计算 默认 最 小 堆 的 大 小 的 方法 同样 也 适用 ，InitialRAMFraction 参数 的 默认 值 为 64。 不 
过 ， 这 个 参数 也 不 能 完全 控制 堆 的 初始 值 ， 如 果 该 参数 值 小 于 5 MB ， 或 者 更 确切 地 说 ， 
指定 的 InitialRAMFraction 小 于 -XX:0LdSize=N 参数 的 设 定 (该 参数 默认 为 4 MB) 时 会 采 
用 另外 的 处 理 方式 。 这 种 情况 下 ， 堆 的 初始 大 小 等 于 新 生 代 和 老年 代 大 小 之 和 。 

快速 小 结 

1. 大 多 数 的 机 器 上 堆 的 初始 空间 和 最 大 空间 的 默认 值 计算 是 比较 直观 的 。 

2. 达到 堆 大 小 的 临界 情况 时 ， 需 要 考虑 的 因素 更 多 ， 计 算 也 更 加 复杂 。 















































6.5 小 结 


在 前 面 的 这 两 章 中 ， 我 们 花费 了 大 量 的 时 间 深 入 介绍 了 垃圾 收集 (以 及 各 种 垃圾 收集 方 
法 ) 工作 的 细 闻 。 如 果 垃 圾 收集 花费 的 时 间 超 出 了 你 的 预期 ， 了 解 垃圾 收集 的 内 部 工作 原 
理 能 帮 你 决定 采取 哪些 必要 的 步骤 进行 性 能 调 优 。 

现在 我 们 已 经 了 解 了 所 有 的 细节 ， 让 我 们 回 退 一 步 ， 决 定 选择 什么 方法 ， 采 用 什么 标志 来 











调 优 垃 圾 收集 器 。 下 面 是 一 些 问 题 集 合 ， 在 调 优 之 前 ， 先 试 着 回答 这 些 问 题 ， 它 们 能 帮 你 

理 清 思路 ， 选 择 合适 的 调 优 措施 。 

你 的 应 用 能 够 肪 受 Full GC 的 停顿 吗 ? 
如 果 答 案 是 肯定 的 ， 选 择 Throughput 收集 器 能 获得 最 高 的 性 能 ， 同 时 ， 使 用 的 CPU 和 

堆 的 大 小 也 比 其 他 的 垃圾 收集 器 少 。 如 果 答 案 是 否定 的 ， 你 需要 依据 可 用 的 堆 大 小 做 
选择 ， 如 果 可 用 的 堆 较 小 ， 你 可 以 选择 并 发 收集 器 ， 壁 如 CMS 收集 器 或 者 G1 收集 器 ， 
如 果 可 用 的 堆 比 较 大 ， 推 荐 使 用 G1 收集 器 。 

使 用 默认 设置 能 达到 你 期 望 的 性 能 目标 吗 ? 
尽量 首先 使 用 默认 的 设置 。 因 为 垃圾 收集 技术 在 不 断 发 展 成 熟 ， 自 动 调 优 大 多 数 情况 下 
取得 的 效果 是 最 好 的 。 如 果 使 用 默认 设置 没有 达到 你 需要 的 性 能 目标 ， 请 确认 垃圾 收集 
是 否 是 性 能 瓶颈 。 查 看 垃圾 收集 日 志 能 帮 有 我 们 了 解 JVM 在 垃圾 收集 上 花费 了 多 长 时 间 、 
垃圾 收集 发 生 的 频率 是 多 少 。 对 于 负 街 较 高 的 应 用 ， 如 果 JVM 花 在 垃圾 收集 上 的 时 间 
不 超过 3 多 ， 即 使 进行 垃圾 调 优 也 不 会 得 到 太 大 的 性 能 提升 (不 过 ， 如 果 那 些 指标 是 你 
关注 的 方面 ， 你 仍然 可 以 党 试 通过 调 优 缩短 某 些 指标 ) 。 

应 用 的 停顿 时 间 与 你 预期 的 目标 接近 吗 ? 
如 果 停 顿时 间 与 你 预期 的 目标 很 接近 ， 调 整 最 大 停顿 时 间 的 设 定 可 能 是 你 需要 做 的 。 如 

果 不 是 ， 你 需要 进行 其 他 的 调整 。 如 果 停 顿时 间 太 长 ， 但 是 应 用 的 吞吐 量 正 常 ， 你 可 以 
尝试 减 小 新 生 代 的 大 小 〈 如 果 瓶 颈 是 Full GC 的 停顿 ， 就 减 小 老年 代 的 大 小 ) ; 调整 之 
后 ， 停 顿 的 频率 会 增加 ， 但 是 单 次 停顿 的 时 长 会 变 短 。 

虽然 GC 的 停顿 时 间 已 经 非常 短 了 ， 但 应 用 的 吞吐 量 依旧 上 不 去 ? 
这 种 情况 下 你 需要 增 大 堆 的 大 小 〈 至 少 要 增 大 新 生 代 )。 但 是 ， 这 并 不 意味 着 堆 越 大 越 
好 : 更 大 的 堆 会 导致 更 长 的 停顿 时 间 。 即 便 是 并 发 收集 器 ， 默 认 情 况 下 ， 增 大 堆 也 还 是 
意味 着 增 大 新 生 代 ， 因 此 你 会 发 现 新 生 代 的 停顿 时 间 变 长 了 。 即 便 是 这 样 ， 如 果 有 可 
能 ， 还 是 应 该 增 大 堆 的 大 小 ， 或 者 增 大 对 应 代 的 大 小 。 

你 使 用 并 发 收集 器 吗 ? 是 否 发 生 了 由 并 发 模式 失败 引起 的 Full GC ? 
如 果 你 有 足够 的 CPU 资源 ， 可 以 尝试 增加 并 发 GC 线程 的 数量 ， 或 者 通过 调整 
InitiatingHeapOccupancyPercent 参数 在 更 早 的 时 候 启 动 后 台 清 理 线程 。 对 于 G1 收集 
器 ， 如 果 有 混合 式 垃圾 收集 尚未 完成 ， 并 发 周期 就 不 会 启动 。 在 这 个 时 候 ， 可 以 尝试 降 
低 混 合式 GC 的 回收 目标 (Mixed GC count target)。 

你 使 用 并 发 收集 器 吗 ? 是 否 发 生 了 由 晋升 失败 引起 的 Full GC ? 
在 CMS 收集 器 中 ， 发 生 晋 升 失败 意味 着 堆 发 生 了 碎片 化 。 这 种 情况 下 ， 我 们 能 做 的 事 
情 不 多 : 使 用 更 大 的 堆 ， 或 者 尽早 地 启动 后 台 回 收 都 能 在 一 定 程度 上 缓解 堆 的 碎片 化 。 
处 理 这 种 情况 ， 更 好 的 解决 方法 可 能 是 使 用 G1 收集 器 。G1 收集 器 中 ， 玻 散失 败 (To 
空间 溢出 ) 表明 遭遇 了 同样 的 情况 ， 但 是 G1 收集 器 能 解决 碎片 化 的 问题 ， 如 果 它 的 后 
台 线 程 在 更 早 的 时 候 启 动 ， 且 混合 式 GC 的 速度 更 快 的 话 。 你 可 以 党 试 通过 增 大 并 发 
G1 收集 线程 的 数目 ， 调 整 InitiatingHeap0ccupancyPercent， 或 者 降低 混合 式 GC 的 目 
标 来 解决 G1 收集 器 中 堆 碎 片 化 的 问题 。 
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第 7 章 


堆 内 存 最 佳 实践 





第 5 章 和 第 6 章 详细 探讨 了 如 何 调 优 垃圾 收集 器 ， 以 使 其 尽 可 能 不 影响 程序 。 调 优 垃圾 收 
集 器 非常 重要 ,但 是 应 用 更 好 的 编程 实践 往往 可 以 获得 更 好 的 性 能 。 本 章 就 探讨 一 些 在 
Java 中 使 用 堆 内 存 的 最 佳 实践 方法 。 

这 里 有 两 个 相互 冲突 的 目标 。 第 一 个 一 般 规则 是 ， 有 市 制 地 创建 对 象 并 尽快 丢弃 。 使 用 更 
少 的 内 存 ， 这 是 提升 垃圾 收集 器 效率 的 最 好 方法 。 相 反 ， 频 繁 地 重建 某 类 对 象 会 导致 整体 
性 能 变 得 更 糟 (即便 GC 的 性 能 有 所 改进 ) 。 然 而 ， 如 果 重 用 那些 对 象 ， 程 序 的 性 能 则 有 可 
能 会 得 到 改善 。 对 象 的 重用 方式 有 很 多 种 ， 包 括 线程 局 部 变量 、 特 殊 的 对 象 引用 以 及 对 象 
池 。 重 用 对 象 意味 着 这 些 对 象 会 长 期 存活 ， 而 且 会 影响 垃圾 收集 器 ， 但 如 果 能 合理 利用 ， 
整体 性 能 就 会 得 到 改进 。 

本 章 会 探讨 这 两 种 方法 以 及 在 它们 之 间 的 权衡 。 不 过 ， 我 们 首先 要 看 一 下 可 以 帮助 理解 堆 
内 正在 发 生 什么 的 工具 。 


7.1 堆 分 析 


第 5 章 探 讨 的 GC 日 志和 工具 对 于 理解 GC 对 应 用 的 影响 很 有 帮助 ， 但 是 要 想 获 得 更 多 
信息 ， 我 们 必须 研究 堆 本 身 。 本 节 探 讨 的 工具 可 为 我 们 理解 应 用 中 正在 使 用 的 对 象 提供 
帮助 。 


大 多 数 情 况 下 ， 这 些 工 具 仅 对 堆 中 的 活跃 对 象 有 效 一 一 会 在 下 一 次 Full GC 周期 内 被 回收 
的 对 象 不 会 包含 在 工具 的 输出 中 。 在 某 些 情况 下 ， 这 些 工 具 会 通过 强制 执行 一 次 Full GC 
来 实现 其 功能 ， 所 以 在 使 用 工具 后 ， 应 用 的 行为 会 受到 影响 。 而 在 其 他 一 些 情况 下 ， 这 些 
工具 会 对 堆 进行 走 查 ， 报 告 活跃 对 象 数据 ， 但 是 不 会 释放 对 象 。 不 过 不 管 是 哪 种 情况 ， 这 
些 工具 都 需要 一 些 时 间 和 机 器 资源 ， 因 此 一 般 不 用 于 测量 程序 的 执行 。 
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堆 直 方 图 
减少 内 存 使 用 是 一 个 重要 目标 ， 
可 用 内 存 的 最 大 化 上 。 在 本 章 后 














且 和 大 多 数 性 能 优化 主题 一 样 ， 它 有 助 于 我 们 把 目标 放 在 
看 ， 我 会 围绕 一 个 Calendar 对 象 的 延迟 初始 化 演示 一 个 例 





子 。 这 个 例子 会 节省 640 字 节 的 堆 内 存 ， 但 如 果 应 用 只 初始 化 一 个 这 样 的 对 象 ， 那 么 性 能 
并 不 会 有 多 大 差别 。 我 们 必须 通过 分 析 来 确定 哪 类 对 象 消耗 了 大 量 内 存 。 
最 简单 的 方法 是 利用 堆 直 方 图 。 利 用 直方 图 ， 我 们 可 以 快速 看 到 应 用 内 的 对 象 数目 ， 同 时 















































不 需要 进行 完整 的 堆 转 储 〈 因 为 堆 转 储 需要 一 段 时 间 来 分 析 ， 而 























且 会 消耗 大 量 磁盘 空间 )。 





如 有 果 应 用 中 的 内 存 压 力 是 由 一 些 特定 的 对 象 类 型 引起 的 ， 利 用 堆 直 方 图 我 们 很 快 就 能 看 出 


端倪 。 











堆 直 方 图 可 以 使 用 jcmd 命令 获得 (这 里 使 用 了 进程 ID 8898) : 


% jcmd 8998 GC.class_histogram 


8898: 


#instances 


#bytes 


class name 


789087 
237997 
137371 
137371 
13456 
13456 
37059 
10621 


co ~ mA 和 WP 请 








31563480 
22617192 
20696640 
18695208 
15654944 
10331560 

9238848 

8363392 


java.math.BigDecimal 

[C 

<ConstMethodKLass> 
<methodKLass> 
<ConstantPooLKLass> 
<instanceKlassKlass> 

[B 
<constantPoolCacheKlass> 


在 堆 直 方 图 中 ，Klass 相关 的 对 象 往往 接近 顶端 ， 它 们 是 加 载 类 


得 到 的 元 数据 对 象 。 在 接 





近 顶 端的 地 方 ， 字 符 数组 〈[C) 和 String 对 象 也 很 常见 ， 因 为 它们 是 最 常 创建 的 Java 对 


象 。 字 节 数 组 ([B) 和 0bject 数组 ([Ljava.lang.0bject;) 同样 较为 常见 ， 





因为 类 加 载 





器 会 将 其 数据 保存 到 这 些 结 构 中 。( 如 果 你 不 熟悉 这 里 使 用 的 语法 ， 它 来 自 Java 原生 接 








在 这 个 例子 中 (这 里 运行 


口 一 一 即 JNI 一 一 识别 对 象 类 型 的 方式 ， 更 多 详情 ， 请 查阅 JNI 参考 文档 。) 
的 是 一 个 应 用 服务 器 中 的 示例 股票 应 用 的 变种 














— 


中 包含 





2 


的 BigDecimal 类 就 是 我 们 要 追查 的 东西 : 我 们 知道 ， 该 示例 代码 会 产生 大 量 短 暂 的 
BigDecimal 对 象 ， 但 是 有 这 么 多 停留 在 堆 中 ， 这 通常 不 是 我 们 希望 看 到 的 情况 。 尽 管 该 命 


今 不 会 强制 执行 Full GC， 但 是 6C.class_histogran 中 的 输出 仅 
和 的 命令 会 得 到 类 似 输 出 : 








运行 下 











% jmap -histo process_id 


收 的 对 象 〈 死 对 象 )。 要 在 看 到 直方 


jmap 的 输出 中 包含 会 被 回 
盏 的 命令 : 





GC， 可 以 转 而 运行 下 














% jmap -histo:live process_id 


直方 图 非常 小 ， 所 以 在 自动 化 系统 中 为 每 个 测试 收集 一 个 会 很 有 帮助 。 因 为 获得 直方 图 也 
需要 几 秒 钟 ， 所 以 请 不 要 在 性 能 测量 稳定 的 状态 下 获得 。 























包含 活跃 对 象 。 


图 之 前 强制 执行 一 次 Full 
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堆 内 存 最 佳 实践 


7.1.2 ” 堆 转 储 


直方 图 擅长 识别 由 分 配 了 一 两 个 特定 类 的 过 多 实例 所 引发 的 问题 ， 但 是 要 进行 深度 分 析 ， 
就 需要 堆 转 储 了 。 有 很 多 可 以 查看 堆 转 储 的 工具 ， 而 且 大 多 数 都 可 以 连接 到 运行 的 程序 来 
生成 转 储 文件 。 从 命令 行 生成 转 储 文件 往往 更 容易 ， 可 以 在 下 面 两 条 命令 中 选择 一 个 : 


% jcmd process_id GC.heap_dump /path/to/heap_dump.hprof 
或 : 
% jmap -dump:live,file=/path/to/heap_dump.hprof process_id 


CR ee 
么 做 。 如 果 因 为 某 些 原因 ， 你 希 an 
上 -aLL。 


这 两 条 命令 都 会 在 指定 目录 下 创建 一 个 命名 为 heap_dump.hprof 的 文件 。 生 成 之 后 ， 有 很 
多 工具 可 以 打开 该 文件 。 以 下 是 三 个 最 常用 的 工具 。 


jhat 


这 是 最 原始 的 堆 分 析 工 具 。 它 会 读 取 堆 转 储 文件 
服务 器 允许 你 通过 一 系列 网 页 链接 查看 堆 转 储 信 息 。 


jvisuyalvm 


jvisualvn 的 监视 (Monitor) 选项 卡 可 以 从 一 个 运行 中 的 程序 获得 堆 转 储 文件 ， 也 可 以 
打开 之 前 生成 的 堆 转 储 文件 。 在 这 里 ， 我 们 可 以 浏览 堆 ， 检 查 最 大 的 保留 对 象 ， 以 及 执 
行 任意 针对 堆 的 查询 。 


mat 


开源 的 EclipseLink 内 存 分 析 器 工具 (EclipseLink Memory Analyzer Tool，mat) 可 以 加 
载 一 个 或 多 个 堆 转 储 文件 并 执行 分 析 。 它 可 以 生成 报告 ， 向 我 们 建议 可 能 存在 问题 的 地 
方 ， 也 可 以 用 于 浏览 堆 ， 并 对 堆 执行 类 SQL 的 查询 。 


对 堆 的 第 一 遍 分 析 通 常 涉及 保留 内 存 。 一 个 对 象 的 保留 内 存 ， 是 指 回收 该 对 象 可 以 释放 
出 的 内 存量 。 在 图 7-1 中 ，String Trio 对 象 的 保留 内 存 包括 该 对 象 本 身 占 用 的 内 存 ， 以 及 
Sally 和 David 两 个 对 象 占用 的 内 存 。Michael 对 象 占 用 的 内 存 不 在 此 列 ， 如 果 String Trio 
被 释放 ， 因 为 Michael 对 象 还 有 另 一 个 指向 它 的 引用 ， 所 以 并 不 满足 GC 条 件 。 












































运行 一 个 小 型 的 HTTP 服务 器 
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Object Person 
Name: Michael 





Object String Trio 
Person p1; 
Person p2; 
Person p3; 







Object Person 
Name: Sally 






Object Flute Duo 
Person p1; 
Person p2; 







Object Person 
Name: David 





Object Person 
Name: James 











图 7-1: 保留 内 存 的 对 象 图 





浅 对 象 大 小 、 保 留 对 象 大 小 及 深 对 象 大 小 
对 于 内 存 分 析 ， 还 有 其 他 两 个 很 有 用 的 术语 : 浅 (shallow) 和 深 (deep)。 一 个 对 象 的 浅 
大 小 ， 指 的 是 该 对 象 本 身 的 大 小 。 如 果 该 对 象 包含 一 个 指向 另 一 个 对 象 的 引用 ，4 字 节 或 
8 字 节 的 引用 会 计算 在 内 ， 但 是 目标 对 象 的 大 小 不 会 包含 进来 。 
深 大 小 则 包含 那些 对 象 的 大 小 。 深 大 小 与 保留 大 小 的 区 别 在 于 那些 存在 共享 的 对 象 。 在 
图 7-1 中 ，Flute Duo 对 象 的 深 大 小 包括 Michael 对 象 消耗 的 内 存 空间 ， 但 是 保留 大 小 则 
不 包括 。 





























保留 了 大 量 堆 空 间 的 对 象 一 般 称 作 堆 的 支配 者 。 如 果 堆 分 析 工 具 表 明 有 些 对 象 支配 着 大 
部 分 堆 ， 那 事情 就 好 办 了 : 我 们 需要 做 的 就 是 少 创建 一 些 这 类 对 象 ， 减 少 保留 这 类 对 象 
的 时 间 ， 简 化 其 对 象 图 ， 或 者 将 对 象 变 小 。 可 能 说 起 来 容易 做 起 来 难 ， 但 是 至 少 分 析 起 
来 很 简单 。 

普遍 的 情况 是 ， 因 为 程序 可 能 会 共享 对 象 ， 所 以 有 时 必须 做 一 些 侦查 性 工作 。 就 像 图 
7-1 中 的 Michael 对 象 一 样 ， 那 些 共享 的 对 象 不 会 计算 在 其 他 任何 对 象 的 保留 集 内 ， 因 为 单 
独 释放 一 个 对 象 并 不 会 释放 共享 对 象 。 此 外 ， 最 大 的 保留 大 小 往往 是 我 们 几乎 无 法 控制 的 
类 加 载 器 带 来 的 。 举 一 个 极端 的 例子 ， 我 们 以 运行 在 GlassFish 中 的 某 个 版 本 的 股票 小 服 
务 程 序 为 例 ， 有 些 条 目 以 强 引 用 形式 缓存 在 用 户 会 话 中 ， 同 时 以 弱 引 用 形式 保存 在 一 个 全 
局 的 散 列表 中 〈 所 以 缓存 的 条 目 存在 多 个 指向 它们 的 引用 ) ， 图 7-2 显示 了 堆 中 位 列 前 茅 的 
一 些 保留 对 象 。 
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i Overview 笃 dominator_tree bx 











Z Total: 14 of 70,584 entries; 70,570 more 














Class Name Shallow Heap v Retained Heap Percentage 

部 <Regex> <Numeric>| <Numeric>| <Numeric> 
>»>D org.apache.Felix.bundlerepository.impl.LocalRepositoryImpl @ 0x77i 32 6,537,744 0.43% 
» 加 org.apache.Felix.framework.BundleWiringImpl$BundleClassLoaderl 96| 5,446,344 0.36% 
>»D orgjvnet,hk2.osgiadapterOSCiModulesRegistryImpPlLQ@ 0x77d3Fc6aQ 64 4,894,168 0,32% 
-DD com.sun,tools.javac.file.ZipFilelndex @ 0x7827d5Fa0 88 2,384,344 0.16% 
» 回 org.apache.felix.framework.BundleWiringImpl$BundleClassLoaderl 96 1,453,056 0.10% 
* Dnet. sdo.stockimpl.StockPriceHistoryImpl @ 0x7c018c868 48 1,357,544 0.09% 
* 口 com.sun.toolsjavac.file.ZipFilelndex @ 0x78301f4c0 88 1,346,072 0.09% 
»>D Net,sdo,stockimpl. StockPriceHistoryImpl @ 0x7a27a59a0 48 1,334,664 0.09% 
» 回 org.apache.Felix.framework.BundleWiringImpl$BundleClassLoaderl 96 1,331,296 0.09% 
» D net.sdo.stockimpl. StockPriceHistoryImpl @ 0x788769d38 48 1,328,368 0.09% 
* 口 net,sdo,stockimpLStockPriceHistoryImpLGQ@ 0x7acFd9098 48 1,327,776 0.09% 
» D net.sdo. stockimpl.StockPriceHistoryImpl @ 0x79d051d88 48 1,322,528 0.09% 
» D net,sdo.stockimpl.StockPriceHistoryImpl @ 0x7a71Fe2b8 48 1,321,344 0.09% 
>D Net.sdo.stockimpl.StockPriceHistoryImpl @ 0x7c32cada0 48 | 1319,480 : 0.09% 





图 7-2: 在 Memory Analyzer 中 查看 保留 内 存 


堆 中 大 约 有 1.4 GB 的 对 象 (这 个 值 没 有 出 现在 该 选项 卡 上 )。 即 便 如 此 ， 单 向 引用 的 最 大 
的 一 组 对 象 只 有 6 MB (而 且 不 出 所 料 ， 这 是 GlassFish 的 OSGi 类 加 载 框架 的 一 部 分 )。 看 


了 直接 保留 内 存 最 多 的 一 些 对 象 ， 这 对 解决 内 存 问 题 并 没有 什么 帮助 。 


在 这 个 例子 中 ， 列 表 中 有 多 个 StockPriceHistoryImpl 实例 ， 而 且 每 一 个 都 保留 了 相当 数 
量 的 内 存 。 从 这 些 对 象 消耗 的 内 存量 可 以 推断 H 





HH， 它 们 就 是 问题 所 在 。 不 过 在 一 般 情况 


下 ， 对 象 可 能 会 以 这 样 的 方式 被 共享 ， 所 以 从 保留 堆 看 不 出 任何 很 明显 的 东西 。 


直方 图 用 在 第 二 步 很 有 用 (参见 图 7-3)。 




















i Overview | lll Histogram % | 

Class Name Objects v ShallowHeap Retained Heap 
莫 <Regex> <Numeric> | <Numeric> <Numeric> 
© java.math.BigDecimal | 12,920,067| 516,802,680 517,429,776 
© java.util TreeMap$EnNtry | 7,255,390! 290,215,600| 1,450,796,576 
© net,sdo,stockimpl.StockPricelmpl | 7,240,530 289,621,200 980,225,584 
人 @@ java.util.Date | 7244268 | 173,862,432 174,077,552 
©B net.sdo.stockimpLStockPricePK | 7,240,530 173,772,720 173,799,360 
©@ char[] | 266,992! 25,934,280 25,934,280 
名 java,lang,String 255,336 6,128,064 30,780,696 
© java.utiL.HashMap$Entry[] : 59,102 | 5,050,328 30,515,800 
© java.utilL HashMap$Entry 151,237 4,839,584 30,295,176 
© java.utilL LinkedHashMap$Entry | 72.786 | 2,911,440 | 6,298,496 
LC) com.sun.tools.javac.file.ZipFileIndex$Entry, 44,416 | 2,131,968 6,049,552 
©@ java.lang.Object[] | 31,328 | 1930,928 | 23,857,992 
@ java.utiLHashMap | 34,114 | 1,910,384 29,772,824 
© java.lang.reflect.Method | 21,579 | 1,726,320| 3,714,040 
3 Total: 14 of 12,007 entries; 11,993 more | 43,446,283 1,517,322,152 

















图 7-3: 在 Memory Analyzer 中 查看 直方 图 
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直方 图 将 同一 类 型 的 对 象 聚 合 到 了 一 起 ， 而 且 在 这 个 例子 中 更 容易 看 出 来 ， 这 1.4 GB 的 
内 存 被 700 万 个 TreeMap$Entry 对 象 占 据 着 ， 而 这 正 是 关键 所 在 。 即 便 不 知道 程序 内 部 目 
前 的 运转 情况 ， 使 用 Memory Analyzer 的 工具 来 跟踪 这 些 对 象 ， 看 看 它们 保持 了 哪些 东西 ， 
这 也 相当 直观 了 。 


堆 分 析 工 具 为 找到 某 个 特定 对 象 (或 者 这 个 例子 中 的 一 组 对 象 ) 的 GC 根 提供 了 一 种 方 
法 一 一 尽管 直接 跳 到 GC 根 未 必 有 多 大 帮助 。GC 根 是 一 些 系 统 对 象 ， 其 中 保存 着 一 些 
(通过 一 个 较 长 的 由 其 他 对 象 组 成 的 链条 ) 指向 问题 中 对 象 的 静态 和 全 局 引用 。 它 们 通常 
来 自在 系统 或 bootstrap 类 路 径 下 加 载 的 某 个 类 中 的 静态 变量 ， 其 中 包括 Thread 类 和 所 有 
的 活跃 线程 ， 线 程 保 留 对 象 ， 或 是 通过 其 线程 局 部 变量 ， 或 是 通过 目标 RunnabtLe 对 象 (或 
者 在 存在 Thread 的 子 类 的 情况 下 ， 通 过 子 类 中 包含 的 任何 其 他 引用 ) 来 引用 。 


在 某 些 情况 下 ， 知 道 某 个 目标 对 象 的 GC 根 是 有 用 的 ， 但 是 如 果 有 多 个 指向 该 对 象 的 引用 ， 
那么 它 会 有 多 个 GC 根 。 这 里 的 引用 是 一 个 倒 过 来 的 树 结构 。 假 设 有 两 个 对 象 指向 一 个 特 
定 的 TreeMap$Entry 对 象 。 其 中 每 个 对 象 又 可 能 被 其 他 两 个 对 象 引用 ， 而 其 他 两 个 对 象 引 
用 中 的 每 一 个 ， 还 有 可 能 被 另外 三 个 对 象 引用 ， 诸 如 此 类 。 引 用 会 随 着 追根 调 源 的 过 程 爆 
炸 性 增长 ， 这 意味 着 任何 给 定 的 对 象 都 可 能 有 多 个 GC 根 。 

相反 ， 在 对 象 图 中 ， 检 查 并 找 出 对 象 被 共享 的 最 下 面 的 一 点 可 能 更 富 成 效 。 实 现 方法 
是 检查 对 象 及 指向 该 对 象 的 引用 ， 然 后 跟踪 这 些 引 用 ， 直 到 识别 出 重复 的 路 径 。 在 这 
个 例子 中 ， 两 个 地 方 用 到 了 保存 在 Tree Map 中 的 StockPriceHistoryImpl 对 象 : 一 个 是 
ConcurrentHashMap， 它 保存 着 会 话 数据 ， 一 个 是 WeakHashMap， 它 保存 着 全 局 缓存 。 

在 图 7-4 中 ， 展 开 追 斋 就 足以 显示 这 两 个 类 的 一 点 数据 了 。 要 得 出 它 是 会 话 数据 的 结论 ， 
我 们 的 方法 是 继续 展开 ConcurrentHashMap 的 路 径 ， 直 到 可 以 明显 看 出 该 路 径 是 会 话 数据 
这 一 点 。WeakHashMap 的 路 径 也 使 用 了 类 似 逻 辑 。 










































































i Overview | lll Histogram | ®] list_objects [selection of 'BigDecimal] -inbound | ® list_objects [selection of 'StockPriceHistoryImpl @ 0x... 
Class Name Shallow Heap Retained Heap 
问 <Regex | <Numer | Numeric 
v D net.sdo.stockimpL StockPriceHistoryImpl @ ox7d7ac7b88 | 48| 1,304,496 
v 四 [27] java.lang.Object[100] @ ox7850bcFs0 | 416 | 416 

"DD elementData java.UtiLArrayList @ 0x7850bcF38 | 24| 440 
> value java. util.concurrent.ConcurrentHashMap$Hash| 32 472 
v TD referent java.lang.reFWeakReference @ 0x7d7ca2e08 | 32 | 32 
"D key java.utiL HashMap$Entry @ 0x7d7ca2e28 | 32| 64 
> 各 [1178] java.utiLHashMapSEntry[2048] @ 0x7bdb59500| 8,208| 79,248 

Z Total: 2 entries | | 











7-4: 在 Memory Analyzer 中 追溯 对 象 引用 


这 个 例子 中 用 到 的 对 象 类 型 使 分 析 要 比 通常 情况 下 更 容易 一 些 。 如 果 这 个 应 用 中 的 主要 数 
据 被 建 模 为 String 对 象 ， 而 非 BigDecimal 对 象 ， 而 且 保存 在 HashMap 对 象 而 非 TreeMap 对 
象 中 ， 分 析 会 更 困难 。 因 为 堆 转 储 中 会 有 数 十 万 其 他 字符 串 ， 成 千 上 万 的 其 他 HashMap 对 
象 ， 找 到 通 往 我 们 关注 的 那些 对 象 的 路 ， 着 实 需要 一 些 耐 心 。 一 般 来 说 ， 我 们 要 从 集合 类 
对 象 〈 例 如 HashMap) 入 手 ， 而 不 是 从 记录 项 (例如 HashMap$Entry) 人手， 并 且 要 寻找 最 
大 的 集合 。 























快速 小 结 
1. 了 解 哪些 对 象 正 在 消耗 内 存 ， 是 了 解 要 优化 代码 中 哪些 对 象 的 第 一 步 。 
2. 对 于 识别 由 创建 了 太 多 某 一 特定 类 型 对 象 所 引发 的 内 存 问 题 ， 直 方 图 这 





























一 方法 快速 且 方 便 。 
3. 堆 转 储 分 析 是 追踪 内 存 使 用 的 最 强大 的 技术 ， 不 过 要 利用 好 ， 则 需要 一 
些 耐 心 和 努力 。 


7.1.3 ”内存 洪 出 错误 

在 下 列 情况 下 ，JVM 会 抛 出 内 存 溢出 错误 (OutofMemoryError) : 

。 JVM 没有 原生 内 存 可 用 ，; 

。 永久 代 (在 Java7 和 更 早 的 版 本 中 ) 或 元 空间 (在 Java 8 中 ) 内存 不 足 ，; 

。 Java 堆 本 身 内 存 不 足 对 于 给 定 的 堆 空 间 而 言 ， 应 用 中 活跃 对 象 太 多 ， 

。 JVM 执行 GC 耗 时 太 多 。 

后 面 两 种 情况 涉及 Java 堆 本 身 ， 它 们 更 为 常见 ， 但 是 不 要 看 到 0ut0fMemoryError 就 自动 
下 结论 认为 堆 是 问题 所 在 。 你 必须 看 一 下 为 什么 会 发 生 这 种 错误 (原因 会 是 异常 输出 的 

































































1. 原生 内 存 不 足 

列表 中 的 第 一 种 情况 一 一 JVM 没有 原生 内 存 可 用 ， 其 原因 与 堆 根本 无 关 。 在 32 位 的 JVM 
中 ， 一 个 进程 的 最 大 内 存 是 4 GB (在 某 些 版 本 的 Windows 上 是 3 GB， 在 某 些 比较 老 的 
Linux 版 本 上 是 3.5 GB)。 指 定 一 个 非常 大 的 堆 大 小 ， 比 如 说 3.8 GB ， 使 应 用 的 大 小 很 接 
近 4 GB 的 限制 ， 这 很 危险 。 即 便 在 64 位 的 JVM 中 ， 操 作 系 统 的 虚拟 内 存 也 不 是 JVM 请 
求 多 少 就 有 多 少 。 
第 8 章 会 更 完整 地 介绍 这 个 主题 。 你 必须 意识 到 ， 如 果 OutofMemoryError 消息 中 提 到 了 原 
生 内 存 的 分 配 ， 那 对 堆 进 行 调 优 解决 不 了 问题 : 你 需要 看 一 下 错误 中 提 到 的 是 何 种 原生 内 
存 问 题 。 例 如 ， 下 面 的 消息 说 明 线 程 栈 的 原生 内 存 耗 尽 了 : 


Exception in thread "main" java.Lang.0utOfMemoryError : 
unable to create new native thread 


2. 永久 代 或 元 空间 内 存 不 足 

这 种 内 存 错误 与 堆 无 关 ， 其 发 生 原因 是 永久 代 (在 Java 7 中 ) 或 元 空间 原生 内 存 (在 Java 
8 中 ) 满 了 。 根 源 可 能 有 两 种 情况 : 第 一 种 情况 是 应 用 使 用 的 类 太 多 ， 超 出 了 永久 代 的 默 
认 容 纳 范 围 ， 解 决 方案 是 增加 永久 代 的 大 小 〈 参 见 5.2.3 节 )。( 在 Java 8 中 ， 如 果 设 置 了 
类 的 元 空间 的 最 大 大 小 ， 也 会 出 现 同样 的 问题 。) 


第 二 种 情况 相对 来 说 有 点 棘手 ， 它 涉及 类 加 载 器 的 内 存 泄 漏 。 这 种 情况 经 常 出 现 于 Java EE 
应 用 服务 器 中 。 部 署 到 应 用 服务 器 中 的 每 个 应 用 都 运行 在 自己 的 类 加 载 器 中 (这 提供 了 隔 
离 ， 使 一 个 应 用 中 的 类 不 会 和 另 一 个 应 用 中 的 类 共享 ， 也 不 会 有 干扰 ) 。 在 开发 中 ， 每 次 修 
改 了 应 用 都 必须 重新 部 署 ， 这 时 就 会 创建 一 个 新 的 类 加 载 器 来 加 载 新 的 类 ， 而 老 的 类 加 载 
器 就 可 以 退出 作用 域 了 。 一 旦 类 加 载 器 退出 了 作用 域 ， 该 类 的 元 数据 就 可 以 回收 了 。 
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如 有 果 老 的 类 加 载 器 没有 退出 作用 域 ， 那 么 该 类 的 元 数据 也 就 无 法 释放 ， 最 后 永久 代 就 会 被 
填 满 ， 进 而 抛 出 OutofMemoryError。 在 这 种 情况 下 ， 增 加 永久 代 的 大 小 会 有 所 帮助 ， 但 最 
终 只 是 推迟 了 错误 抛 出 的 时 机 而 已 。 

如 采 在 某 个 应 用 服务 器 环境 中 出 现 这 种 情况 ， 除 了 联系 应 用 服务 器 厂商， 让 他 们 修复 内 存 
泄漏 问题 外 ， 也 别 无 他 法 。 如 果 你 正在 编写 的 应 用 会 创建 并 丢弃 大 量 类 加 载 器 ， 一 定 要 非 
常 谨慎 ， 确 保 类 加 载 器 本 身 能 正确 丢弃 〈 尤 其 是 ， 确 保 没 有 线程 将 其 上 下 文 加 载 器 设置 成 
一 个 临时 的 类 加 载 嚣 )。 要 调试 这 种 情况 ， 前 面 刚 介绍 的 堆 转 储 分 析 就 非常 有 用 : 在 直方 
图 中 ， 找 到 ClassLoader 类 的 所 有 实例 ， 然 后 跟踪 它们 的 GC 根 ， 看 一 下 哪些 对 象 还 保留 
了 对 它们 的 引用 。 

识别 这 种 情况 的 关键 仍然 是 0utofMemoryError 的 输出 全 文 。 在 Java 8 中 ， 如 果 元 空间 满 
了 ， 错 误 消 息 将 会 是 下 面 这 样 的 : 


Exception in thread "main" java.Lang.0utOfMemoryError: Metaspace 


在 Java7 中 类 似 ， 错 误 消 息 如 下 : 


Exception in thread "main" java.Lang.0utOfMemoryError: PermGen space 


3. 堆 内 存 不 足 
当 确 实 是 堆 本 身 内 存 不 足 时 ， 错 误 消 息 会 是 这 样 的 : 




































































Exception in thread "main" java.Lang.0utOfMemoryError: Java heap space 


由 缺乏 堆 空间 触发 的 内 存 不 足 条 件 一 般 与 永久 代 的 情况 类 似 。 应 用 可 能 只 是 需要 更 多 堆 空 
间 : 活跃 对 象 的 数目 在 为 其 配置 的 堆 空间 中 已 经 装 不 下 了 。 也 可 能 是 应 用 存在 内 存 泄漏 : 
它 持续 分 配 新 对 象 ， 却 没有 让 其 他 对 象 退 出 作用 域 。 对 于 第 一 种 情况 ， 增 加 堆 大 小 可 以 解 
决 问题 ， 而 对 于 第 二 种 情况 ， 增 加 堆 大 小 只 不 过 将 错误 的 出 现时 机 推迟 了 。 

不 管 是 哪 种 情况 ， 要 找 出 哪些 对 象 消耗 的 内 存 最 多 ， 堆 转 储 分 析 都 是 必要 的 ， 之 后 我 们 的 
注意 力 就 可 以 集中 到 减少 那些 对 象 的 数目 (或 大 小 ) 上 。 如 果 应 用 存在 内 存 泄漏 ， 可 以 间 
隔 几 分 钟 ， 获 得 连续 的 一 些 堆 转 储 文件 ， 然 后 加 以 比较 。mat 内 置 了 这 一 功能 : 如果 打开 
了 两 个 堆 转 储 文件 ，mat 有 一 个 选项 用 来 计算 两 个 堆 中 的 直方 图 之 间 的 差别 。 























自动 堆 转 储 
OutOfMemoryError 是 不 可 预料 的 ， 我 们 很 难 确 定 应 该 何 时 获得 堆 转 储 。 有 几 个 JVM 标志 
可 以 起 到 帮助 。 
-XX:+HeapDumpOnOutOfMemoryError 
该 标志 默认 为 false， 打 开 该 标志 , JVM 会 在 抛 出 OutOfMemoryError 时 创建 堆 转 储 。 
-XX:HeapDumpPath=<path> 
该 标志 指定 了 堆 转 储 将 被 写 入 的 位 置 ; 默认 会 在 应 用 的 当前 工作 目录 下 生成 java_ 
pid<pid>.hprof 文件 。 这 里 的 路 径 可 以 指定 目录 (这 种 情况 下 会 使 用 默认 的 文件 
名 )， 也 可 以 指定 要 生成 的 实际 文件 的 名 宁 。 
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-XX:+HeapDumpAfterFullGC 

这 会 在 运行 一 次 Full GC 后 生成 一 个 堆 转 储 文件 。 
-XX:+HeapDumpBeforeFULLGC 

这 会 在 运行 一 次 Full GC 之 前 生成 一 个 堆 转 储 文件 。 
有 的 情况 下 (比如 ， 因 为 执行 了 多 次 Full GC) 会 生成 多 个 堆 转 储 文件 ， 这 时 JVM 会 在 堆 
转 储 文件 的 名 字 上 附 一 个 序号 。 
如 果 应 用 会 因为 堆 空间 的 原因 不 可 预测 地 抛 出 OutOfMemoryError ， 而 且 你 需要 那 一 刻 的 
堆 转 储 来 分 析 错 误 原因 ， 请 尝试 打开 这 些 标志 。 











图 7-5 演示 了 由 集合 类 (这 里 是 一 个 HashMap) 引发 的 Java 内 存 汽 漏 这 一 经 典 案 例 。( 集 合 
类 是 导致 内 存 泄漏 的 最 常见 原因 : 应 用 向 集合 中 插入 条 目 ， 但 从 不 释放 它们 。) 这 是 一 个 
直方 图 对 比 视图 : 它 显 示 了 两 个 不 同 的 扒 转 储 中 对 象 数目 的 差别 。 例 如 ， 与 基线 堆 转 储 相 
比 ， 目 标 堆 转 储 中 的 Integer 对 象 要 多 出 19 744 个 。 

要 克服 这 种 情况 ， 最 好 的 办 法 是 修改 应 用 的 逻辑 ， 主 动 将 不 再 需要 的 条 目 从 集合 中 删除 。 
作为 一 种 选择 ， 可 以 使 用 弱 引 用 或 软 引 用 的 集合 ， 当 在 应 用 中 已 经 不 存在 对 某 些 条 目的 任 
何 引 用 时 ， 该 集合 会 自动 丢弃 它们 ， 不 过 这 样 的 集合 是 有 代价 的 (本 章 后 面 会 讨论 )。 


























before hprof 2 after.hprof 








i HN 儿 籽 | 站 妨 ” QA 可 " 国 ” 轨 ” | 阐 


i Overview | Ml Histogram | hl Histogram % ] 











| Class Name Objects 

| 加 Regex | <Numeric | 
© java.utilLHashMap$Entry +10,000 | 
© java.lang.Integer +19,744 | 
© java.utiL HashMap$Entry[] 41 


| 

| 

| 

i 

| 

| 

: : 
@ char[] | +2| 

i 

| 

| 

: 

| 

| 





| java.lang.refFinalizer +2 | 
© java.io.FilelnputStream +2| 
[eo java.util. HashMap +1 | 
| 名 java.lang.String | +2 
|@ java.io.FileDescriptor | +2| 
© java.lang.Object | +2| 
|@ java,UtiLconcurrent.atomic.AtomicInteger | +2| 
|9 java.lang. String[] +1 
| 名 java.lang. StackTraceElement | +0| 
© java.io.BufferedReader | +0 | 
|@@ java.lang.StackOverflowError | +0 | 
© java.util.Collections$UnmodifiableRandomAccessList! +0| 
|@ java.lang. StringCoding$ StringDecoder | +0| 
© java.lang.Float | +0| 

i 

E 

§ 


| 3: Total: 18 of 372 entries; 354 more 








图 7-5: 直方 图 对 比 
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4. 达到 GC 的 开销 限制 
JVM 抛 出 outofMemoryError 的 最 后 一 种 情况 是 JVM 认为 在 执行 GC 上 花费 了 太 多 时 间 


Exception in thread "main" java.Lang.0utOfMemoryError: GC overhead limit exceeded 
当 满 足下 列 所 有 条 件 时 就 会 抛 出 该 错误 。 
(1) 花 在 Full GC 上 的 时 间 超 出 了 -XxX:GCTimeLimtt=W 标 志 指定 的 值 。 其 默认 值 是 98 (也 就 
是 ， 如 果 98% 的 时 间 花 在 了 GC 上 ， 则 该 条 件 满足 )。 
(2) 一 次 Full GC 回收 的 内 存量 少 于 -XX:GCHeapFreeLimit=N 标 志 指 定 的 值 。 其 默认 值 是 2， 
这 意味 着 如 果 Full GC 期 间 释放 的 内 存 不 足 堆 的 2%， 则 该 条 件 满 足 。 
(3) 上 面 两 个 条 件 连 续 5 次 Full GC 都 成 立 〈 这 个 数值 是 无 法 调整 的 )。 
(4) -XX:+UseGCOverhead-Limit 标志 的 值 为 true (默认 如 此 )。 
请 注意 ， 所 有 四 个 条 件 必 须 都 满足 。 一 般 来 说 ， 应 用 中 连续 执行 了 5 次 以 上 的 Full 
GC， 不 一 定 会 抛 出 outofMemoryError。 其 原因 是 ， 即 便 应 用 将 98% 的 时 间 花 费 在 执行 
Full GC 上 ， 但 是 每 次 GC 期 间 释 放 的 堆 空间 可 能 会 超过 2%。 这 种 情况 下 可 以 考虑 增加 
GCHeapFreeLimit 的 值 。 
还 请 注意 ， 如 果 前 两 个 条 件 连续 4 次 Full GC 周期 都 成 立 ， 作 为 释放 内 存 的 最 后 一 搏 ， 
JVM 中 所 有 的 软 引 用 都 会 在 第 五 次 Full GC 之 前 被 释放 。 这 往往 会 防止 该 错误 ， 因 为 第 五 
次 Full GC 很 可 能 会 释放 超过 2% 的 堆 内 存 (假设 该 应 用 使 用 了 软 引 用 )。 


快速 小 结 

1. 有 多 种 原因 会 导致 抛 出 0utofMemoryError， 因 此 不 要 假设 堆 空间 就 是 问 
题 所 在 。 

2. 对 于 永久 代 和 普通 的 堆 ， 内 存 泄漏 是 出 现 0utofMemoryError 的 最 常见 原 
因 ; 堆 分 析 工 具 可 以 帮助 我 们 找到 泄漏 的 根源 。 


7.2 减少 内 存 使 用 


在 Java 中 ， 第 一 种 更 高 效 使 用 内 存 的 方式 是 减少 堆 内 存 的 使 用 。 这 人 句 话 不 难 理解 : 堆 内 存 
用 的 越 少 ， 堆 被 填 满 的 几率 就 越 低 ， 需 要 的 GC 周期 也 越 少 。 而 且 有 倍 乘 效 应 : 新 生 代 回 
收 的 次 数 更 少 ， 对 象 的 晋升 年 龄 也 就 不 会 很 频繁 地 增加 ， 这 意味 着 对 象 被 提升 到 老年 代 的 
可 能 性 也 降低 了 。 因 此 ，Full GC 周期 (或 者 是 并 发 GC 周期 ) 也 会 减少 。 而 且 ， 如 果 这 些 
Full GC 周期 能 够 清理 更 多 内 存 ， 它 们 发 生 的 频率 也 会 降低 。 


本 市 将 研究 三 种 减少 内 存 使 用 的 方式 : 减少 对 象 大 小 、 对 象 的 延迟 初始 化 以 及 使 用 规范 化 
对 象 。 


7.2.1 减少 对 象 大 小 
对 象 会 占用 一 定数 量 的 堆 内 存 ， 所 以 要 减少 内 存 使 用 ， 最 简单 的 方式 就 是 让 对 象 小 一 些 。 


考虑 运行 程序 的 机 器 的 内 存 限 制 ， 增 加 10% 的 堆 有 可 能 是 无 法 做 到 的 ， 但 是 堆 中 一 半 对 象 
的 大 小 减少 20%， 能 够 实现 同样 的 目标 。 



































































































































减少 对 象 大 小 有 两 种 方式 : 减少 实例 变量 的 个 数 (效果 很 明显 )， 或 者 减少 实例 变量 的 大 
小 〈 效 果 没 那么 明星 )。 表 7-1 列 出 了 Java 中 不 同类 型 实例 变量 的 大 小 。 
表 7-1: Java 实 例 变量 的 大 小 


类 型 大 小 
byte 














char 


Short 


1 

2 

2 
int 4 
float 4 
Long 8 
double 8 
reference 在 32 位 JVM 以 及 堆 小 于 32 GB 的 64 位 JVM 上 

是 4; 在 启用 大 堆 的 64 位 JVM 上 是 8 

注 a: 更 多 细节 ， 参 见 8.2.2 市 “压缩 的 oop”。 























这 里 的 引用 类 型 指 的 是 指向 任何 类 型 Java 对 象 (包括 类 或 数组 的 实例 ) 的 引用 。 这 个 空 
间 存 储 的 只 是 参数 本 身 。 如 果 对 象 中 包含 指向 其 他 对 象 的 引用 ， 其 大 小 会 因 我 们 想 考 虑 
Shallow Size、Deep Size 还 是 Retained size (保留 大 小 ) 而 有 所 不 同 ， 不 过 其 中 都 会 包含 
一 些 隐 藏 的 对 象 头 字 段 。 对 于 普通 对 象 ， 对 象 头 字段 在 32 位 JVM 上 占 8 字 节 ,在 64 位 
JVM 上 占 16 字 节 〈 跟 堆 大 小 无 关 )。 对 于 数组 ， 对 象 头 字段 在 32 位 JVM 以 及 堆 小 于 32 
GB 的 64 位 JVM 上 占 16 字 节 ， 其 他 情况 下 是 64 字 市 。 


例如 ， 考 虑 这 几 个 类 定义 : 


public class A 
private int i; 






































3} 


public class B { 
private int i; 
private Locale \ = Locale.Us; 


public class C { 
private int i; 
private ConcurrentHashMap chm = new ConcurrentHashMap(); 


} 
在 堆 小 于 32 GB 的 64 位 Java7JVM 上 ， 这儿 个 类 的 实例 实际 大 小 如 表 7-2 所 示 。 
表 7-2: 简单 对 象 的 大 小 





Shallow size Deep size Retained size 
A 16 16 16 
B 24 216 24 
G 24 200 200 





在 B 类 中 ， 定 义 Locate 应 用 将 对 象 的 大 小 增加 了 8 字 节 ， 但 至 少 在 这 个 例子 中 ， 实 际 的 
Locale 对 象 是 与 其 他 一 些 类 共享 的 。 如 果 该 类 实际 上 从 来 没 用 到 这 个 Locate 对 象 ， 那 将 
这 个 实例 包含 进来 ， 只 会 浪费 引用 所 占 的 额外 空间 。 当 然 ， 如 果 应 用 创建 了 大 量 B 类 的 实 


例 ， 还 是 会 积 少 成 多 。 


另 一 方面 ， 定 义 并 创建 一 个 ConcurrentHashMap， 除 了 对 象 应 用 会 消耗 额外 的 字 市 ， 这 个 
HashMap 对 象 还 会 增加 200 字 节 。 如 果 这 个 HashMap 从 来 不 用 ,Cc 的 实例 就 非常 浪费 。 


仅 定 义 需 要 的 实例 变量 ， 这 是 节省 对 象 空间 的 一 种 方式 。 还 有 一 种 效果 不 那么 明显 的 方 
案 ， 就 是 使 用 更 小 的 数据 类 型 。 如 果 某 个 类 需要 记录 8 个 可 能 的 状态 之 一 ， 用 一 个 字 节 就 
可 以 了 ， 而 不 需要 一 个 int， 这 就 可 能 会 节省 3 字 节 。 使 用 float 代替 double，int 代替 
Long， 诸 如 此 类 ， 都 可 以 帮助 节省 内 存 ， 特 别 是 在 那些 会 频 党 地 实例 化 的 类 中 。 第 12 章 将 
讨论 ， 使 用 大 小 适当 的 集合 类 (或 者 使 用 简单 的 实例 变量 代替 集合 类 ) 可 以 达到 类 似 的 节 
省 空间 的 目的 。 












































对 象 对 齐 与 对 象 大 小 


表 7-2 中 的 类 ， 郁 包含 一 个 额外 的 整 型 字段 ， 讨 论 中 并 没有 引用 到 。 为 什么 要 放 这 么 
一 个 变量 呢 ? 


事实 上 ， 这 个 变量 的 目的 是 让 讨论 更 容易 理解 : B 类 比 A 类 多 8 字 节 ， 正 是 我 们 所 期 
望 的 〈 这 样 更 明确 ) 。 


这 掩盖 了 一 个 重要 细节 : 为 使 对 象 大 小 是 8 字 节 的 整数 倍 (对 齐 ) ， 总 是 会 有 填充 操 
作 。 如 果 在 A 类 中 没有 定义 1，A 的 实例 仍然 会 消耗 16 字 节 ， 其 中 4 字 节 只 是 用 于 填 
充 ， 使 得 对 象 大 小 是 8 的 整数 位， 而 不 是 用 于 保存 1。 如 果 没 有 定义 1，B 类 的 实例 将 
仅 消 耗 16 字 节 ， 和 A 一 样 ， 即 便 B 中 还 有 额外 的 对 象 引用 。B 中 仅 包 含 一 个 额外 的 4 
字 节 引用 ， 为 什么 其 实例 会 比 A 的 实例 多 8 字 节 呢 ， 也 是 填充 的 问题 。 


JVM 也 会 填充 字 节 数 不 规 则 的 对 象 ， 这 样 不 管 底层 架构 最 适合 什么 样 的 地 址 边界 ， 对 
象 的 数组 部 能 优雅 地 适应 。 

因此 ,去掉 某 个 实例 字段 或 者 减少 某 个 字段 的 大 小 ， 未 ' 必 能 带 来 好 处 ， 不 过 我 们 没有 理由 
不 这 么 做 。 














去 掉 对 象 中 的 实例 字段 ， 有 助 于 减少 对 象 的 大 小 ， 不 过 还 有 一 个 灰色 地 带 : 有 些 字段 会 保 
存 基于 一 些 数据 计算 而 来 的 结果 ， 这 该 如 何 处 理 呢 ? 这 就 是 计算 机 科学 中 典型 的 时 间 空 间 
权衡 问题 : 是 消耗 内 存 (空间 ) 保存 这 个 值 更 好 ， 还 是 在 需要 时 花 时 间 (CPU 周期 ) 计算 
这 个 值 更 好 ? 不 过 在 Java 中 ， 权 衡 还 会 考虑 CPU 时 间 ， 因 为 额外 的 内 存 占用 会 引发 GC 
消耗 更 多 CPU 周期 。 


比如 ，String 的 哈 希 码 值 (hashcode) 就 是 对 一 个 涉及 该 字符 串 中 每 个 字符 的 式 子 求 和 计 
算 而 来 的 ， 计 算 会 消耗 一 点 时 间 。 因 此 ，String 类 会 把 这 个 值 存在 一 个 实例 变量 中 ， 这 样 
哈 希 码 值 只 需要 计算 一 次 : 最 后 ， 与 不 存储 这 个 值 而 节省 的 内 存 空 间 相 比 ， 重 用 几乎 总 能 
获得 更 好 的 性 能 。 男 一 方面 ， 大 部 分 类 的 tostring() 方法 不 会 把 对 象 的 字符 串 表 示 保 存在 
一 个 实例 变量 中 ， 因 为 实例 变量 及 其 引用 的 字符 串 都 会 消耗 内 存 。 相 反 ， 与 保存 字符 串 引 
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用 所 需 的 内 存 相 比 ， 计 算 一 个 新 的 字符 串 所 花 的 时 间 通 常 不 是 很 多 ， 性 能 更 好 。( 还 有 一 
个 因素 ，String 对 象 的 哈 希 码 值 用 的 较为 频繁 ， 而 对 象 的 tostring() 表示 使 用 却 很 少 。) 
当然 ， 这 种 情况 必定 是 因 人 而 异 的 。 就 时 间 / 空间 的 连续 体 而 言 ， 究 竞 是 使 用 内 存 来 存储 
值 ， 还 是 重新 计算 值 ， 都 是 取决 于 许多 具体 因素 的 。 如 果 目 标 是 减少 GC， 则 更 倾向 于 采 
用 重新 计算 。 


快速 小 结 

1. 减 小 对 象 大 小 往往 可 以 改进 GC 效率 。 

2. 对 象 大 小 未 必 总 能 很 明显 地 看 出 来 : 对 象 会 被 填充 到 8 字 节 的 边界 ， 对 
象 引用 的 大 小 在 32 位 和 64 位 JVM 上 也 有 所 不 同 。 

3， 对象 内 部 即使 为 nutl 的 实例 变量 也 会 占用 空间 。 


7.2.2 ”延迟 初始 化 


正如 前 面 几 闻 所 介绍 的 ， 很 多 时 候 ， 决 定 一 个 特定 的 实例 变量 是 否 需要 并 不 是 非 黑 即 白 的 
问题 。 某 个 特定 的 类 可 能 只 有 10% 时 间 需 要 一 个 Calendar 对 象 ， 但 是 Calendar 对 象 创建 
成 本 很 高 ， 所 以 保留 这 个 对 象 备用 ， 而 不 是 需要 的 时 候 再 重新 创建 ， 绝 对 是 有 意义 的 。 这 
种 情况 下 ， 延 迟 初始 化 可 以 带 来 帮助 。 
到 目前 为 止 ， 我 们 所 作 讨 论 的 前 提 是 假定 实例 变量 很 早 就 会 初始 化 。 需 要 使 用 一 个 
Calendar 对 象 (不 需要 线程 安全 ) 的 类 看 上 去 可 能 是 这 样 的 : 

public class CalDateInitialization { 


private Calendar calendar = Calendar.getInstance(); 
private DateFormat df = DateFormat.getDateInstance(); 


















































private void report(Writer w) { 
w.write("On " + df.format(calendar.getTime()) +": " + this); 
} 
} 


要 延迟 初始 化 其 字段 ， 在 计算 性 能 上 会 有 一 点 小 小 的 损失 ， 代 码 每 次 执行 时 都 必须 测试 变 
量 的 状态 : 


public class CalDateInitialization { 
private Calendar calendar; 
private DateFormat df; 


private void report(Writer w) { 
if (calendar == null) { 
calendar = Calendar .getInstance(); 
df = DateFormat.getDateInstance(); 
} 
w.write("On " + df.format(calendar.getTime()) +": " + this); 
} 
} 


如 果 问 题 中 的 这 个 操作 使 用 不 太 频 昆 ， 那 延迟 初始 化 最 适合 : 如 果 操 作 很 常用 ， 实 际 上 没 
有 市 省 内 存 (总 是 会 分 配 这 些 实例 )， 而 常用 操作 又 有 轻微 的 性 能 损失 。 





A 
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延迟 初始 化 运行 时 性 能 
检查 要 进行 延迟 初始 化 的 变量 是 不 是 已 经 被 初始 化 了 ， 未 必 总 会 有 性 能 损失 。 考 虑 来 自 
JDK 的 ArrayList 类 的 一 个 例子 。 这 个 类 维护 着 一 个 所 存储 元 素 的 数组 ， 在 JDK 7u40 之 
前 ， 这 个 类 的 伪 代 码 看 上 去 就 是 下 面 这 样 ; 


public class ArrayList { 
private Object[] elementData = new Object[16]; 
int index = 0; 
public void add(Object o) { 
ensureCapacity(); 
elementData[index++] = 0; 
} 
private void ensureCapacity() { 
if (index == elementData.length) { 


二 重新 分 配 数组 并 把 老 数 据 复制 进来 …… 








} 


在 JDK 7u40 中 ， 这 个 类 有 所 修改 ,elementData 数组 被 延迟 初始 化 了 。 但 是 因为 
ensureCapacity() 方法 已 经 需要 检查 数组 大 小 ， 这 个 类 的 常用 方法 就 不 用 承受 性 能 损失 
了 : 检查 是 否 初 始 化 的 代码 和 检查 数组 大 小 是 否 需要 增加 的 代码 是 一 样 的 。 新 的 代码 使 用 
了 一 个 静态 的 、 共 享 的 0 长 度数 组 ， 因 此 性 能 也 是 一 样 的 : 
public class ArrayList { 
private static final Object[] EMPTY_ELEMENTDATA = {] ; 


private Object[] elementData = EMPTY_ELEMENTDATA; 
} 


这 意味 着 ensureCapacity() 方法 基本 不 需要 修改 ， 因 为 index 和 elementData.length 都 
是 从 0 开始 的 。 








lk 





当 所 涉及 的 代码 需要 保证 线程 安全 时 ， 延 迟 初 始 化 会 更 为 复杂 。 第 一 步 ， 最 简单 的 方式 是 
添加 传统 的 同步 机 制 
public class CalDateInitialization { 


private Calendar calendar; 
private DateFormat df; 





private synchronized void report(Writer w) { 
if (calendar == null) { 
calendar = Calendar .getInstance(); 
df = DateFormat.getDateInstance(); 


} 


w.write( "On 


+ df.format(calendar.getTime()) +": " + this); 
} 


在 解决 方案 中 引入 同步 ， 会 使 得 同步 也 有 可 能 成 为 性 能 瓶颈 。 不 过 这 种 情况 很 罕见 。 对 于 
问题 中 的 对 象 而 言 ， 只 有 当初 始 化 这 些 字 段 的 几率 很 低 时 ， 延 迟 初 始 化 才 有 性 能 方面 的 好 























堆 内 存 最 佳 实践 | 153 














处 。 因 为 ， 如 果 一 般 情况 下 都 会 初始 化 这 些 字 段 ， 那 实际 上 也 不 会 节省 内 存 。 因 此 对 于 延 
迟 初始 化 的 字段 ， 当 不 常用 的 代码 路 径 突 然 被 大 量 线程 同时 使 用 时 ， 同 步 就 会 成 为 瓶颈 。 
这 种 情况 是 可 以 想象 的 ， 不 过 好 在 并 不 多 见 。 


只 有 延迟 初始 化 的 变量 本 身 是 线程 安全 的 ， 才 有 可 能 解决 同步 瓶 代 。DateFormat 对 象 不 是 
线程 安全 的 ， 所 以 在 现在 的 这 个 例子 中 ， 锁 中 是 否 包含 Calendar 对 象 并 不 重要 :如果 延迟 
初始 化 的 对 象 突 然 被 频频 使 用 ， 那 无 论 如 何 ， 围 绕 DateFormat 对 象 所 需 的 同步 都 会 成 为 问 
题 。 线 程 安全 的 代码 应 该 是 这 样 的 : 

public class CalDateInitialization { 


private Calendar calendar; 
private DateFormat df; 





























private void report(Writer w) { 
unsychronizedCalendarInit(); 
synchronized(df) { 
w.write("On " + df.format(calendar.getTime()) +": " + this); 


} 
} 


涉及 非 线程 安 全 的 实例 变量 的 延迟 初始 化 ， 总 会 围绕 这 个 变量 做 同步 (例如 ， 像 前 面 所 示 
的 那样 使 用 方法 的 同步 版 本 )。 

考虑 一 个 有 点 不 一 样 的 例子 ， 其 中 有 一 个 比较 大 的 ConcurrentHashMap 对 象 ， 就 采用 了 延 
迟 初 始 化 ， 


public class CHMInitialization { 
private ConcurrentHashMap chm; 





public void doOperation() { 
synchronized(this) { 
if (chm == null) { 
chm = new ConcurrentHashMap(); 


i 填充 这 个 map 的 代码 ……: 

















因为 多 个 线程 可 以 安全 地 访问 ConcurrentHashMap， 所 以 这 个 例子 中 的 多 余 的 同步 ， 就 是 一 
种 不 太 常 见 的 情况 ， 因 为 即便 是 恰当 地 使 用 延迟 初始 化 ， 也 引入 了 同步 瓶颈 。( 不 过 这 种 
而 颈 应 该 极为 少见 ， 如 果 这 个 HashMap 访问 非常 频 紧 ， 那 就 应 该 考虑 延迟 初始 化 到 底 有 什 
么 好 处 了 。) 该 瓶颈 可 以 使 用 双重 检查 锁 这 种 惯用 法 来 解决 : 
public class CHMInitialization { 
private volatile ConcurrentHashMap instanceChm; 
































public void doOperation() { 
ConcurrentHashMap chm = instanceChm; 
if (chm == null) { 
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synchronized(this) { 
chm = instanceChm; 
if (chm == null) { 
chm = new ConcurrentHashMap(); 
ps 填充 这 个 map 的 代码 


instanceChm = chm; 














这 里 有 些 比较 重要 的 多 线程 相关 的 问题 : 实例 变量 必须 用 volatile 来 声明 ， 而 且 将 这 个 实 
例 变量 赋值 给 一 个 局 部 变量 ， 性 能 会 有 些许 改进 。 第 9 章 会 介绍 更 多 细节 ;， 在 多 线程 代码 
的 延迟 初始 化 确实 有 意义 的 特殊 场合 ， 应 该 遵循 这 种 设计 模式 .。 

尽早 清理 

从 延迟 初始 化 变量 可 以 推出 男 一 种 行为 ， 即 通过 将 变量 的 值 设置 为 nuLtL， 实 现 尽早 清理 ， 
从 而 使 问题 中 的 对 象 可 以 更 快 地 被 垃圾 收集 器 回收 。 不 过 这 只 是 理论 上 听 着 不 错 ， 真 正 能 
发 挥 作用 的 场合 很 有 限 。 


可 以 选择 延迟 初始 化 的 变量 ， 可 能 看 上 去 也 可 以 选择 尽早 清理 : 在 上 面 的 例子 中 ， 一 完成 
report() 方法 ，Calendar 和 DateFormat 对 象 就 可 以 设置 为 nuLL 了 。 人 然而， 如 果 后 面 再 调 
用 到 这 个 方法 (或 者 同一 个 类 中 的 其 他 地 方 ) 时 ， 并 没有 用 到 该 变量 ， 那 最 初 就 没有 理由 
将 其 设计 为 实例 变量 : 在 方法 中 创建 一 个 局 部 变量 就 可 以 了 ， 而 且 当 方法 完成 时 ， 局 部 变 
量 就 会 离开 作用 域 ， 然 后 垃圾 收集 器 就 可 以 释放 它 了 。 


不 需要 尽早 清理 变量 ， 这 个 规则 有 个 很 常见 的 例外 情况 ， 即 对 于 类 似 Java 集合 类 框架 中 的 
那些 类 ， 它们 会 在 较 长 的 时 间 内 保存 一 些 指向 数据 的 引用 ， 当 问题 中 的 数据 不 再 需要 时 会 
通知 它们 。 考 虑 JIDK 中 ArrayList 类 的 remove() 方法 的 实现 〈 部 分 代码 有 所 简化 ) : 


public E remove(int index) { 

E oldValue = elementData(index); 

int numMoved = size - index - 1; 

if (numMoved > 0) 

System.arraycopy(elementData, index+1, 

elementData, index, numMoved); 

elementData[--size] = null; // 清理 ,i 上 Gc 完成 其 工作 

return oldValue; 








































































































} 
JDK 源 代 码 中 有 一 行 关于 GC 的 注释 : 像 这 样 将 某 个 变量 的 值 设置 为 nutl， 这 种 操作 并 不 
常见 ， 需 要 解释 一 下 。 在 这 种 情况 下 ， 我 们 可 以 看 看 当 数 组 的 最 后 一 个 元 素 被 移 除 时 ， 会 
发 生 什么 。 仍 然 存在 于 数组 中 的 条 目 数 ， 也 就 是 实例 变量 size， 会 被 减 1。 比 如 说 size 从 
5 减少 到 4。 现 在 不 管 elementData[4] 中 存 的 是 什么 ， 都 不 能 访问 了 : 它 超出 了 数组 的 有 
效 范 围 。 
在 这 种 情况 下 ，elementData[4] 是 一 个 过 时 的 引用 。elementData 数组 可 能 仍 会 存活 很 长 时 
间 ， 因 此 对 于 不 需要 再 引用 的 元 素 ， 应 该 主动 将 其 设置 为 null。 
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过 时 引用 的 概念 是 这 里 的 关键 : 如 果 一 个 长 期 存活 的 类 会 缓存 以 及 丢弃 对 象 引 用 ， 那 一 定 
要 仔细 处 理 ， 以 避免 过 时 引用 。 否 则 ， 显 式 地 将 一 个 对 象 引 用 设置 为 null 在 性 能 方面 基本 
没什么 好 处 。 











快速 小 结 

1， 只 有 当 常 用 的 代码 路 径 不 会 初始 化 某 个 变量 时 ， 才 去 考虑 延迟 初始 化 该 
变量 。 

2. 一 般 不 会 在 线程 安全 的 代码 上 引入 延迟 初始 化 ， 否 则 会 加 重 现 有 的 同步 
成 本 。 

3. 对 于 使 用 了 线程 安全 对 象 的 代码 ， 如 果 要 采用 延迟 初始 化 ， 应 该 使 用 双 
重 检查 锁 。 


7.2.3 不 可 变 对 象 和 标准 化 对 象 


在 Java 中 ， 很 多 对 象 类 型 都 是 不 可 变 的 。 这 包括 那些 有 相应 的 基本 类 型 的 类 ， 如 Integer、 
Double 和 Boolean 等 ， 以 及 其 他 一 些 基于 数值 的 类 型 ， 如 BigDecimal。 当 然 ， 最 常见 的 
Java 对 象 当 属 不 可 变 的 String。 从 程序 设计 的 角度 看 ， 用 定制 类 来 表示 不 可 变 的 对 象 ， 往 
往 是 个 不 错 的 主意 。 


如 果 这 些 对 象 会 快速 创建 然后 丢弃 ， 它 们 会 对 Young GC 多 少 有 些 影响 ， 不 过 如 我 们 在 第 
5 章 所 介绍 ， 影 响 有 限 。 但 是 和 任何 对 象 一 样 ， 如 果 有 大 量 的 不 可 变 对 象 被 提升 到 老年 代 ， 
性 能 就 会 出 现 问题 。 

因此 ， 没 有 理由 不 设计 和 使 用 不 可 变 对 象 ， 即 使 对 象 无 法 改变 、 必 须 重新 创建 等 特性 使 其 
看 上 去 有 点 事与愿违 。 不 过 处 理 这 些 对 象 时 往往 可 以 进行 一 项 优化 ， 那 就 是 避免 创建 同一 
对 象 的 不 同 宛 余 副 本 。 

最 好 的 例子 就 是 Boolean 类 。 在 任何 Java 应 用 中 ， 其 实 只 需要 两 个 Boolean 示例 ， 一 个 表 
示 true， 一 个 表示 false。 遗 憾 的 是 ，Boolean 设计 得 很 差 。 因 为 它 有 一 个 public 的 构造 
器 ， 应 用 喜欢 创建 多 少 这 类 对 象 就 能 创建 多 少 ， 即 时 它们 和 两 个 标准 化 的 Boolean 对 象 其 
中 之 一 是 完全 相同 的 。 更 好 的 设计 方案 应 该 是 ， 让 Boolean 类 只 有 一 个 private 的 构造 器 ， 
通过 static 方法 根据 其 参数 返回 BooLean.TRUE 或 Boolean.FALSE。 如 果 自 己 的 不 可 变 类 有 
这 样 的 一 个 模型 可 以 遵循 ， 就 可 以 防止 它们 占用 应 用 中 额外 的 堆 空 间 。( 很 明显 ， 绝 对 不 
应 该 创建 Boolean 对 象 ， 必 要 的 时 候 应 该 使 用 BooLean.TRUE 或 BooLean.FALSE。) 

像 这 类 不 可 变 对 象 的 单一 化 表示 ， 就 被 称 为 对 象 的 标准 化 (canonical) 版 本 。 

创建 标准 化 对 象 

即便 某 个 特定 类 的 全 体 对 象 几乎 是 无 限制 的 ， 使 用 标准 化 的 值 通常 也 可 以 节省 内 存 。JD 开 
为 大 部 分 常见 的 不 可 变 对 象 提供 了 实现 此 功能 的 方法 : 比如 字符 串 可 以 调用 intern( ) 方法 
找到 该 字符 串 的 一 个 标准 化 版 本 。 下 一 节 将 介绍 字符 串 保留 (intern) 的 更 多 细节 ， 现 在 我 
们 先 看 一 下 对 于 定制 的 类 如 何 实现 同样 功能 。 

要 标准 化 某 个 对 象 ， 创 建 一 个 Map 来 保存 该 对 象 的 标准 化 版 本 。 为 防止 内 存 泄漏 ， 务 必 保 
证 使 用 弱 引 用 处 理 Map 中 的 对 象 。 这 样 一 个 类 的 骨架 看 上 去 会 是 这 样 的 : 
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public class ImmutabLe0bject { 
WeakHashMap<ImmutableObject, ImmutableObject> map = new WeakHashMap(); 


public ImmutableObject canonicalVersion(ImmutableObject io) { 
synchronized(map) { 
ImmutableObject canonicalVersion = map.get(io); 
if (canonicalVersion == null) { 
map.put(io, io); 
canonicalVersion = io; 
} 
return canonicalVersion; 
} 
} 
} 


在 多 线程 环境 中 ， 此 处 的 同步 可 能 会 成 为 瓶 贷 。 如 果 想 坚持 使 用 JDK 的 类 ， 并 没有 简单 的 
解决 方案 ， 因 为 IDK 没有 提供 支持 弱 引 用 的 并 发 Hashmap。 不 过 ， 目 前 有 提议 向 JDK 中 
添加 一 个 CustomConcurrentHashMap 类 (最 初 是 JSR 166 的 一 部 分 )， 另 外 还 可 以 找 一 下 这 
种 类 的 各 种 第 三 方 实现 。 




















快速 小 结 
1. 不 可 变 对 象 为 标准 化 (canonicalization) 这 种 特殊 的 生命 周期 管理 提供 了 
可 能 性 。 


2， 通过 标准 化 去 掉 不 可 变 对 象 的 见 余 副 本 ， 可 以 极 大 减少 应 用 消耗 的 堆 内 存 。 


7.2.4 字符 串 的 保留 
字符 串 无 疑 是 最 常见 的 Java 对 象 ， 应 用 的 堆 中 几乎 到 处 都 是 字符 串 。 


如 果 有 大 量 的 字符 串 是 相同 的 ， 那 很 大 一 部 分 空间 都 是 浪费 的 。 因 为 字符 串 是 不 可 变 的 ， 
所 以 对 于 同样 的 字符 序列 ， 没 有 理由 存在 多 个 字符 串 表 示 。 不 过 就 编程 而 言 ， 很 难 确定 是 
不 是 正在 创建 重复 的 字符 串 。 


要 知道 是 不 是 有 大 量 重 复 的 字符 串 ， 需 要 对 堆 进 行 一 些 分 析 。 方 式 之 一 就 是 在 Eclipse 
Memory Analyzer 中 加 载 堆 转 储 文件 ， 计 算 所 有 String 对 象 的 保留 大 小 (Retained Size ) ， 
并 按照 其 最 大 保留 大 小 将 这 些 对 象 排 序 。 图 7-6 就 是 一 个 这 样 的 堆 转 储 信息 。 看 上 去 前 3 
个 字符 串 是 相同 的 ， 保 留 它们 能 够 节省 650 KB 内 存 。( 可 以 在 验证 工具 中 检查 这 些 字符 
串 。) 第 4 个 和 第 5 个 ， 第 7 个 到 第 9 个 ， 也 是 这 样 ， 当 然 也 有 差别 ， 那 就 是 列表 中 越 小 
的 对 象 ， 通 过 保留 字符 串 能 节省 的 内 存 越 少 。 

这 种 情况 下 ， 保 留 特 定 的 字符 串 有 优势 ， 仅 保留 一 个 标准 化 版 本 ， 可 以 节省 掉 副 本 对 象 所 
消耗 的 空间 。 这 可 以 用 上 一 节 例 子 中 标准 化 例子 的 一 个 变种 来 实现 ， 不 过 string 类 提供 了 
自己 的 标准 化 方法 : intern() 方法 。 

和 大 部 分 优化 一 样 ， 保 留 字符 串 不 能 随意 进行 ， 但 是 如 果 有 大 量 重复 的 字符 串 ， 占 据 了 很 
大 一 部 分 堆 ， 这 时 就 很 有 效果 了 。 关 于 保留 大 多 字符 串 ， 应 该 注意 一 点 : 保留 字符 串 的 表 
是 保存 在 原生 内 存 中 的 ， 它 是 一 个 大 小 固定 的 Hashtable。 在 Java 7u40 之 前 的 版 本 中 ， 这 
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个 表 默 认 有 1009 个 桶 ;平均 而 言 ， 在 因为 链接 而 出 现 冲突 之 前 ， 预 计 可 以 保存 500 个 字 
符 串 。 在 64 位 版 本 的 Java 7u40 及 更 新 的 版 本 中 ， 默 认 大 小 为 60 013。 























i Overview | lll Histogram | [2 list_objects [selection of 'String'] 器 
Class Name Shallow Heap v Retained He 
部 <Regex | Numeric | <Numeric> 
» [Djava.lang.String @ 0x703bd42d8 | 24| 328,592 
>» Djava.lang.String @ 0x702208118 | 24| 328,592 
p Djava.lang.String @ 0x701a37578 24 328,592 
» Djava.lang.String @ 0x70242a4c0 | 24 53,208 
Djava.lang.String @ 0x701d847c8 24 53,208 
p Djava.lang. String @ 0x7032542c8 24 40,600 
p Djava.lang.String @ 0x703b2ae08 24 37,168 
p Djava.lang. String @ 0x70213a7b8 24 37,168 
» [Djava.lang.String @ 0x70135d758 24 37,168 
» Djava.lang.String @ 0x700066bd8 | 24| 32,112 
» Djava.lang.String @ 0x7021e3d78 | 24| 26,224 
p DD java.lang. String @ 0x700F7e450 | 24 | 26,224 
» Djava.lang.String @ 0x702294c50 | 24| 23,632 
» Djava.lang.String @ 0x701dde1c8 | 24 | 23,632 
E Total: 14 of 236,646 entries; 236,632more | | 
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大 小 固定 的 Hashtable 


如 果 尚 不 熟 六 Hashtable 和 Hashmap， 你 可 能 想 知道 到 底 什么 是 大 小 固定 的 Hashtable 
(特别 是 ， 这 些 类 的 Java 实现 大 小 都 是 不 固定 的 )。 


从 概念 上 讲 ， 一 个 Hashtable 包含 一 个 数组 ， 它 会 保存 一 些 条 目 (数组 中 的 每 个 元 素 叫 
作 一 个 桶 )。 当 要 将 一 个 对 象 保存 到 Hashtable 中 时 ， 可 以 用 该 对 象 的 哈 希 值 对 桶 的 数 
目 取 余 ， 以 此 确定 对 象 在 数组 中 的 存储 位 置 。 这 种 情况 下 ， 两 个 哈 希 值 不 同 的 对 象 很 
有 可 能 被 映射 到 同一 个 桶 中 ， 每 个 桶 实际 就 是 一 个 链表 ， 其 中 按 顺序 存储 了 映射 到 该 
桶 的 条 目 。 当 两 个 对 象 映 射 到 一 个 桶 时 ， 这 就 叫 “冲突 ”。 

随 着 越 来 越 多 的 对 象 被 插入 到 这 个 表 中 ， 冲 突 也 会 越 来 越 多 ; 进而 会 有 更 多 的 条 目 被 
插入 到 每 个 链表 中 。 要 找到 一 个 条 目 ， 就 变 成 了 在 一 个 链表 中 搜索 。 这 可 能 会 非常 慢 ， 
特别 是 随 着 链表 越 来 越 长 ， 速 度 会 更 慢 。 

解决 方案 是 设置 Hashtable 的 大 小 ， 以 便 它 有 更 多 的 桶 (当然 ， 结 果 就 是 冲突 会 减少 ) 。 
很 多 实现 都 是 动态 处 理 的 ; 实际 上 ，jJava 的 Hashtable 和 HashMap 也 是 这 么 工作 的 。 

其 他 实现 ， 像 这 里 讨论 的 JVM 内 部 的 这 个 ， 就 不 能 重新 设置 Hashtable 的 大 小 ; 其 数 
组 的 大 小 是 在 创建 时 就 固定 的 。 























其 他 实现 ， 像 这 里 讨论 的 JVM 内 部 的 这 个 ， 就 不 能 重新 设置 Hashtable 的 大 小 ;其 数组 的 
大 小 是 在 创建 时 就 固定 的 。 
从 Java 7 中 开始 ， 这 个 表 的 大 小 可 以 在 JVM 启动 时 使 用 -XX:StringTabLeSitze=N (如 前 下 
所 介绍 的 ， 默 认 值 为 1009 或 60 013) 。 如 果 某 个 应 用 会 保留 大 量 字 符 串 ， 就 应 该 增加 这 个 
值 。 如 果 这 个 值 是 个 素数 ， 字 符 串 保留 表 的 效率 最 高 。 

intern() 方法 的 性 能 是 由 表 大 小 的 调 优 程度 所 决定 的 。 作 为 一 个 例子 ， 表 7-3 列 出 了 在 不 
同 场景 下 创建 和 保留 1 千 万 个 随机 创建 的 字符 串 的 总 时 间 : 


表 7-3: 保留 1 千 万 个 字符 串 的 时 间 



























































调 优 用 时 
字符 串 表 大 小 为 1009 2.3 小 时 
字符 串 表 大 小 为 1 百 万 30.4 秒 
字符 串 表 大 小 为 1 千 万 25.2 秒 
自 定义 方式 26.4 秒 





注意 ， 如 果 字 符 串 保留 表 的 大 小 设置 不 当 ， 人 性 能 损失 会 相当 严重 。 一 旦 根据 预期 数据 设置 
了 该 表 的 大 小 ， 性 能 会 极 大 改善 。 
最 后 一 个 测试 用 例 没 有 使 用 intern() 方法 , 而 是 使 用 了 前 面 介绍 的 示例 canonicalVersion() 
方法 ， 它 是 用 CustomConcurrentHashMap 类 实现 的 (出 自 JSR 166 的 一 个 早期 版 本 )， 而 且 
用 的 是 非 强 引用 的 键 和 值 。 与 精心 优化 过 的 字符 串 保 留 表 相 比 ， 这 对 性 能 没什么 帮助 。 不 
过 这 种 方案 也 有 一 个 优势 ， 即 开发 者 根本 不 需要 调节 其 大 小 。CustomConcurrentHashMap 的 
初始 大 小 是 1009， 它 会 根据 需要 动态 调整 大 小 。 与 最 大 程度 优化 过 的 字符 串 表 大 小 相 比 ， 
还 是 有 比较 小 的 性 能 损失 ， 但 是 运行 要 容易 得 多 。( 不 过 在 那 种 情况 下 ， 代 码 必须 调用 定 
制 类 的 canonicalVersion() 方法 ， 而 不 是 简单 地 替换 掉 intern() 方法 。) 

如 果 想 看 看 字符 串 表 的 执行 过 程 ， 可 以 使 用 -Xx:+PrintstringTableStatistics 参数 (这 个 
标志 要 求 IDK 7u6 或 更 新 版 本 ， 默 认为 false) 运行 应 用 。 当 JVM 退出 时 ， 它 会 打印 一 个 
这 样 的 列表 : 


StringTable statistics: 





uy 








Number of buckets : 1009 
Average bucket size : 3008 
Variance of bucket size : 2870 
Std. dev. of bucket size: 54 
Maximum bucket size : 3186 








这 个 命令 行 也 会 显示 符号 表 的 信息 ， 但 是 这 里 我 们 感 兴 趣 的 是 字符 串 表 。( 符 号 表 用 于 保 
存 一 些 类 信息 。JDK 8 有 一 个 调整 该 表 大 小 的 实验 性 选项 ， 但 是 一 般 不 会 调整 它 。) 在 这 
个 例子 中 ， 有 3 035 072 个 保留 的 字符 串 〈 因 为 有 1009 个 桶 ， 每 个 桶 平均 有 3008 个 字符 
串 )。 理 想 情 况 下 ， 桶 的 平均 大 小 应 该 是 0 或 1。 这 个 大 小 实际 上 不 会 为 0， 可 能 会 小 于 
0.5， 但 是 因为 计算 时 用 的 是 整 型 运算 ， 所 以 报告 中 会 向 下 取 整 。 如 果 平 均值 大 于 1， 则 需 
要 增 大 字符 串 表 的 大 小 。 


某 个 应 用 中 已 经 分 配 的 保留 字符 串 个 数 〈 及 其 总 大 小 )， 可 以 使 用 如 下 的 jmap 命令 获得 
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(这 也 需要 JDK 7u6 或 更 新 版 本 ) : 


% jmap -heap process_id 
ee 其 他 输入 ……: 
36361 interned Strings occupying 3247040 bytes. 


如 果 将 字符 串 表 设 得 特别 大 ， 其 损失 是 非常 小 的 : 每 个 桶 只 需要 4 字 布 或 8 字 (取决 于 


使 用 的 是 32 位 还 是 64 位 JVM) ， 所 以 比 最 优 的 情况 多 几 千 ， 只 是 一 次 性 消耗 一 些 原 生 内 
存 (不 是 堆 内 存 )。 


























字符 串 的 Intern 和 Equals 

在 谈 到 保留 字符 串 这 个 主题 时 ， 因 为 保留 的 字符 串 可 以 通过 == 操作 符 比 较 ， 那 使 用 
intern() 方法 让 程序 跑 得 快 一 些 怎 么 样 呢 ? 这 种 想法 很 常见 ， 但 是 大 部 分 情况 下 并 非 
如 此 。String.equals() 方法 是 相当 快 的 。 首 先 要 知道 ， 长 度 不 相等 的 字符 串 表 定 不 
会 相同 ; 即使 长 度 相 同 ， 还 要 扫描 字符 事 ， 比 较 所 有 的 字符 (至 少 要 找到 不 匹配 的 地 
方 )。 不 可 否认 ， 通 过 == 操作 比较 字符 串 确 实 会 快 一 些 ， 但 是 保留 字符 串 的 成 本 也 要 
考虑 进去 。 这 需要 (还 有 其 他 方面 ) 计算 字符 囊 的 哈 希 编码 ， 这 意味 着 要 扫描 整个 字 
符 事 ， 并 在 每 个 字符 上 执行 一 个 操作 (就 像 equals() 所 做 的 那样 ) 。 

只 有 一 种 情况 下 会 有 好 处 : 应 用 会 在 一 组 长 度 相 同 的 字符 事 上 执行 大 量 的 重复 比较 ，。 
如 果 字 符 事 部 已 经 保留 了 ， 那 用 == 作 比 较 更 快 ， 调用 intern() 的 代价 是 只 需要 计算 
一 次 。 但 是 一 般 而 言 ， 性 能 差不多 。 














快速 小 结 
1. 如果 应 用 中 有 大 量 字 符 串 是 一 样 的 ， 那 通过 保留 实现 字符 串 重 用 收效 
很 大 。 





2. 要 保留 很 多 字符 串 的 应 用 可 能 需要 调整 字符 串 保留 表 的 大 小 (除非 是 运 
行 在 Java 7u40 及 更 新 的 64 位 服务 器 JVM 上 )。 


7.3 ”对象 生命 周期 管理 


关于 内 存 管理 ， 本 章 要 大 篇 幅 讨 论 的 第 二 个 主题 是 对 象 生 命 周期 管理 。 在 很 大 程度 上 ， 
Java 会 尽量 减轻 开发 者 投入 到 对 象 生 命 周期 管理 上 的 精力 : 开发 者 在 需要 的 时 候 创 建 对 
象 ， 当 不 再 需要 这 些 对 象 时 ， 它 们 会 走出 作用 域 ， 并 由 垃圾 收集 器 释放 。 

有 些 情况 下 ， 正 常 的 生命 周期 并 不 是 最 优 的 。 有 些 对 象 创建 的 成 本 很 高 ， 而 管理 这 些 对 象 
的 生命 周期 可 以 改进 应 用 的 效率 ， 即 便 以 让 垃圾 收集 器 多 做 些 工作 为 代价 。 本 市 将 探索 正 
常 的 生命 周期 何 时 应 该 有 所 改变 ， 以 及 如 何 改变 ， 手 段 可 以 是 重用 对 象 ， 或 者 是 维护 指向 
这 些 对 象 的 特殊 引用 。 


7.3.1 对象 重用 
对 象 重用 通常 有 两 种 实现 方式 : 对 象 池 和 线程 局 部 变量 。 一 说 这 个 ， 开 发 GC 的 工程 师 就 


















































_ 














A 


160 | 第 7 章 





要 抱 奶 了 ， 因 为 这 两 种 技术 都 会 影响 GC 的 效率 。 特 别 是 对 象 地 ，GC 圈 对 其 是 很 抵触 的 ， 
而 且 由 于 其 他 很 多 原因 ， 开 发 圈 也 不 太 喜 欢 这 种 技术 。 

从 某 种 程度 上 说 ， 对 象 池 技术 之 所 以 不 受 待 见 ， 原 因 似乎 显而易见 : 被 重用 的 对 象 会 在 堆 
中 停留 很 长 时 间 。 如 果 有 大 量 对 象 存 在 于 堆 中 ， 那 用 来 创建 新 对 象 的 空间 就 少 了 ， 因 为 
GC 操作 会 更 为 频繁 。 不 过 这 只 是 冰山 一 角 。 

第 6 章 曾 经 介绍 过 ， 对 象 创建 时 是 分 配 在 Eden 区 的 。 在 最 终 提升 到 老年 代 之 前 ， 会 在 
Survivor 区 反复 经 历 一 些 Young GC 周期 。 每 当 处 理 到 最 近 创 建 或 者 新 创建 的 池 化 对 象 时 ， 
GC 算法 必须 执行 一 些 工作 ， 去 复制 这 个 对 象 ， 并 调整 指向 它 的 引用 ， 直 到 该 对 象 最 终 进 
入 老年 代 。 

尽管 看 上 去 故事 可 能 就 此 结束 了 ,但 是 一 旦 对 象 被 提升 到 老年 代 ， 可 能 引发 的 性 能 问题 其 
至 会 更 多 。 执 行 一 次 Full GC 所 花 的 时 间 与 老年 代 中 仍然 存活 的 对 象 数量 成 正比 。 存 活 对 
象 的 数量 其 至 比 堆 的 大 小 更 重要 ， 处理 一 个 3 GB 大 小 但 存活 对 象 很 少 的 老年 代 ， 与 处 理 
一 个 1GB 大 小 但 存活 对 象 占 75% 的 老年 代 相 比 ， 速 度 要 快 一 些 。 





































































































GC 效率 
那么 堆 中 存活 对 象 的 数量 对 GC 时 间 有 多 少 影响 呢 ? 答案 不 一 而 足 。 


如 下 是 在 我 的 标准 4 核 Linux 系统 上 所 做 的 一 个 测试 的 GC 日 志 输 出 ， 测 试 中 使 用 了 4 
GB 的 堆 (其 中 1GB 固定 为 新 生 代 ) : 


[FuLL GC [PSYoungGen: 786432K->786431K(917504K)] 
[ParOldGen: 3145727K->3145727K(3145728K)] 
3932159K->3932159K(4063232K) 

[PSPermGen: 2349K->2349K(21248K)] ，0.5432730 secs] 
[Times: user=1.72 sys=0.01, real=0.54 secs] 


[FuLL GC [PSYoungGen: 786432K->OK(917504K)] 
[ParoldGen: 3145727K->210K(3145728K)] 
3932159K->210K(4063232K) 
[PSPermGen: 2349K->2349K(21248K)] ，0.0687776 secs] 
[Times: user=0.08 sys=0.00, real=0.07 secs] 


[Full GC [PSYoungGen: 349567K->349567K(699072K)] 
[ParoldGen: 3145727K->3145727K(3145728K)] 
3495295K->3495295K(3844800K) 

[PSPermGen: 2349K->2349K(21248K)] ，0.7228886 secs] 
[Times: user=2.41 sys=0.01, real=0.73 secs] 


注意 中 间 的 输出 : 应 用 清理 了 指向 老年 代 中 的 大 部 分 引用 ， 所 以 在 GC 之 后 ， 老 年 代 
中 的 数据 只 有 210 KB 了 。 该 操作 仅 用 了 70 毫秒 。 在 其 他 情况 下 ， 堆 中 的 大 部 分 数据 
仍然 存活 ; Full GC 操作 尽管 几乎 没有 移 除 什么 数据 ， 但 是 花费 的 时 间 分 别 是 540 毫秒 
和 730 毫秒 。 这 还 算是 幸运 的 ， 测 试 中 有 4 个 GC 线程 。 在 单 核 系统 上 ， 这 个 例子 中 
耗 时 较 短 的 GC 需要 80 毫秒 ， 耗 时 较 长 的 GC 则 需要 2410 毫秒 (超过 30 倍 的 差距 )。 











使 用 某 个 并 发 收集 器 避免 Full GC 并 不 能 使 情况 有 所 好 转 ， 这 是 因为 ， 并 发 收集 器 的 标记 
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阶段 所 花 的 时 间 也 依赖 于 仍 存活 数据 的 数量 。 特 别 是 对 CMS 而 言 ， 池 中 的 对 象 很 可 能 会 
在 不 同 的 时 间 被 提升 ， 这 会 增 大 因 碎 片 而 导致 的 并 发 故障 的 机 会 。 总 的 来 说 ， 对 象 在 堆 中 
存留 的 时 间 越 长 ，GC 的 效率 越 差 。 

因此 ， 对 象 重用 并 不 好 。 现 在 我 们 可 以 讨论 如 何以 及 何 时 重用 对 象 了 。 

JDK 提供 了 一 些 常见 的 对 象 地 : 线程 池 (将 在 第 9 章 讨论 ) 和 软 引 用 。 软 引用 (本 节 后 本 

会 讨论 ) 本 质 上 是 一 大 池 可 重用 对 象 。 同 时 Java EE 依赖 对 人 象 池 来 连接 数据 库 和 其 他 资源 ， 

而 且 EJB (Enterprise Java Beans) 的 整个 生命 周期 都 是 围绕 对 象 池 的 概念 构建 的 。 

线程 局 部 变量 的 情况 类 似 ，JDK 中 到 处 是 使 用 线程 局 部 变量 的 类 ， 以 避免 重新 分 配 特 定 种 

类 的 对 象 。 

显然 ， 甚 至 Java 专家 都 理解 在 某 些 情况 下 需要 对 象 重用 。 

之 所 以 要 重用 对 象 ， 原 因 是 很 多 对 象 初始 化 的 成 本 很 高 ， 与 增加 的 GC 时 间 这 一 点 相 权 衡 ， 

重用 更 为 高 效 。 对 于 像 JDBC 连接 池 这 样 的 东西 ， 肯 定 如 此 : 创建 网 络 连 接 ， 以 及 可 能 还 

要 进行 的 登录 和 建立 数据 库 会 话 ， 成 本 非常 高 。 这 种 情况 下 ， 对 象 池 有 很 大 的 性 能 优势 。 

线程 也 可 以 池 化 ， 以 节省 创建 线程 的 时 间 ; 随机 数 生成 器 是 作为 线程 局 部 变量 提供 的 ， 以 

节省 生成 随机 数 的 时 间 ， 诸 如 此 类 。 

这 些 例子 有 一 个 共同 的 特性 ， 即 初始 化 对 象 需 要 的 时 间 较 长 。 在 Java 中 ， 对 象 分 配 非常 

快 ， 成 本 也 不 高 (反对 对 象 重用 的 观点 往往 就 是 关注 的 这 一 点 )。 对 象 初始 化 的 性 能 取决 

于 对 象 本 身 。 应 该 只 考虑 重用 初始 化 成 本 非常 高 的 对 象 ， 而 且 是 只 有 当初 始 化 这 些 对 象 的 

代价 在 程序 中 是 主导 性 操作 之 一 时 。 

这 些 例子 还 有 一 个 共性 ， 那 就 是 所 共享 对 象 的 数目 往往 很 小 ， 以 便 最 小 化 对 GC 的 影响 : 

即 它们 的 数量 较 小 ， 还 不 足以 降低 GC 周期 。 池 中 有 少量 对 象 ， 对 GC 效率 不 会 影响 太 大 ， 

如 果 堆 中 满 是 池 化 对 象 ， 就 会 严重 影响 GC 了 。 

下 面 是 JDK 和 Java EE 中 重用 对 象 的 一 些 例 子 ， 以 及 重用 的 原因 : 

线程 池 
线程 初始 化 的 成 本 很 高 。 

JDBC 池 
数据 库 连 接 初始 化 的 成 本 很 高 。 

EJB 池 
EJB 初始 化 的 成 本 很 高 (参见 第 10 章 )。 

大 数组 
Java 要 求 ， 一 个 数组 在 分 配 的 时 候 ， 其 中 的 每 个 元 素 都 必须 初始 化 为 某 个 默认 值 
(nuLL、0 或 者 false， 根据 具体 情况 而 定 )。 对 于 很 大 的 数组 ， 这 是 非常 耗 时 的 。 

原生 NIO 缓冲 区 
不 管 缓冲 区 多 大 ， 分 配 一 个 直接 的 java.nio.Buffer ( 即 调用 allocateDirect() 方法 返 
回 的 缓冲 区 ) ， 这 个 操作 都 非常 昂贵 。 最 好 是 创建 一 个 很 大 的 缓冲 区 ， 然 后 通过 按 需 切 
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割 的 方式 来 管理 ， 以 便 将 其 重用 于 以 后 的 操作 。 
安全 相关 类 
MessageDigest、Signature 以 及 其 他 安全 算法 的 实例 ， 初 始 化 的 成 本 都 很 高 。 基 于 
Apache 的 XML 代码 就 是 使 用 线程 局 部 变量 保存 这 些 实 例 的 。 
字符 串 编 解 码 器 对 象 
JDK 中 的 很 多 类 都 会 创建 和 重用 这 些 对 象 。 在 大 多 数 情况 下 ， 这 些 还 是 软 引 用 ， 下 一 
节 将 介绍 。 
StringBuilder 协助 者 
BigDecimal 类 在 计算 中 间 结 果 时 会 重用 一 个 StringBuilder 对 象 。 
随机 数 生 成 器 
Random 类 和 (特别 是 ) SecureRandom 类 ， 生 成 它们 的 实例 的 代价 是 很 高 的 。 
从 DNS 查询 到 的 名 字 
网 络 查询 代价 很 高 。 
ZIP 编 解码 器 
有 一 种 有 趣 的 变化 ， 初 始 化 的 开销 不 是 特别 高 ， 但 是 释放 的 成 本 很 高 ， 因 为 这 些 对 象 要 
依赖 对 象 终结 操作 (finalization) 来 确保 释放 掉 所 用 的 原生 内 存 。 更 多 细节 ， 参 见 7.3.2 
节 的 “终结 器 和 最 终 引 用 ”。 
此 处 讨论 的 对 象 凶 和 线程 局 部 变量 两 种 方式 ， 在 性 能 上 有 些 差别 。 下 面 详细 看 一 下 。 
1. 对 象 池 
对 象 池 不 受 人 喜欢 ， 原因 有 多 个 方面 ， 只 有 部 分 原因 和 性 能 有 关 。 线 程 池 的 大 小 可 能 很 难 
正确 地 设置 ， 它 们 将 对 象 管理 的 负担 又 抛 给 程序 员 了 : 程序 员 不 能 简单 地 将 对 象 丢 出 作用 
域 ， 而 必须 记得 将 其 返还 到 对 象 池 中 。 
不 过 这 里 的 焦点 是 对 象 池 的 性 能 ， 它 受 如 下 儿 个 因素 的 影响 。 































































































GC 影响 
如 我 们 所 见 ， 保 存 大 量 对 象 会 降低 GC 的 效率 (有 时 非常 显著 )。 
同步 


对 象 池 必 然 是 同步 的 ， 如 果 对 象 要 频繁 地 移 除 和 替换 ， 对 象 池上 可 能 会 存在 大 量 竞 争 。 
其 结果 是 ， 访 问 对 象 池 可 能 比 初始 化 新 对 象 还 慢 。 
限 流 (Throttling) 

对 象 池 对 性 能 也 有 正面 的 影响 :对 于 对 稀缺 资源 的 访问 ， 线 程 池 可 以 起 到 限 流 作用 。 如 
第 2 章 所 讨论 的 ， 如 果 想 增加 的 负载 超出 系统 的 处 理 能 力 ， 性 能 将 下 降 。 这 是 线程 池 之 
所 以 很 重要 的 一 个 原因 。 如 果 有 太 多 线程 同时 运行 ，CPU 将 不 堪 重 负 ， 而 且 性 能 会 下 
降 (第 9 章 就 有 个 这 方面 的 例子 )。 

这 一 原则 也 适用 于 远程 系统 的 访问 ， 而 且 在 JDBC 连接 中 会 经 常见 到 。 如 果 JDBC 连接 
数 超出 数据 库 的 处 理 能 力 ， 数 据 库 的 性 能 就 会 下 降 。 在 这 些 情况 下 ， 通 过 确定 池 的 上 限 
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来 限制 资源 数 (如 JDBC 连接 数 ) 更 好 ， 即 便 这 意味 着 应 用 中 的 线程 必须 等 待 一 个 空闲 
资源 。 
2. 线程 局 部 变量 
在 通过 将 对 象 保存 为 线程 局 部 变量 这 种 技术 实现 对 象 重用 时 ， 有 不 同 的 性 能 权衡 ， 如 下 
所 列 。 
生命 周期 管理 
线程 局 部 变量 要 比 在 池 中 管理 对 象 更 容易 ， 成 本 更 低 。 这 两 种 技术 都 汶 请 开发 者 去 获取 
初始 对 象 : 或 者 是 从 对 象 池 中 检 出 ， 或 者 是 在 线程 局 部 对 象 上 调用 get() 方法 。 但 是 对 
象 池 还 要 求 开发 者 在 使 用 完毕 后 归还 对 象 ( 否 则 其 他 人 就 不 能 使 用 了 ) ; 线程 局 部 对 象 
在 线程 内 总 是 可 用 的 ， 不 需要 显 式 地 归还 。 
基数 性 (Cardinality) 
线程 局 部 变量 通常 会 伴生 线程 数 与 保存 的 可 重用 对 象 数 之 间 的 一 一 对 应 关系 。 不 过 并 非 严 
格 如 此 。 线 程 的 变量 副本 ， 直 到 该 线程 第 一 次 访问 它 时 ， 才 会 创建 ， 因 此 保存 的 对 象 数 有 
可 能 小 于 线程 数 。 但 是 保存 的 对 象 数 不 可 能 会 超过 线程 数 ， 大 部 分 时 间 两 者 是 相同 的 。 


另 一 方面 ， 对 象 凶 的 大 小 则 有 些 随意 。 如 果 一 个 Servlet 有 时 需要 一 个 JDBC 连接 ， 有 时 
需要 两 个 ， 则 JDBC 池 的 大 小 可 以 相应 设 定 ( 比 如 说 ， 对 于 8 个 线程 ， 设 定 12 个 连接 )。 
线程 局 部 变量 做 不 到 这 一 点 ， 也 不 能 减少 对 资源 的 访问 (除非 线程 数 本 身 可 以 减少 )。 
同步 
线程 局 部 变量 不 需要 同步 ， 因 为 它们 只 能 用 于 一 个 线程 之 内 ， 而 且 线程 局 部 的 get() 方 
法 相当 快 。( 情 况 并 非 一 直 如 此 ， 在 早期 的 Java 版 本 中 ， 获 得 一 个 线程 局 部 变量 的 开销 
很 大 。 如 果 过 去 因为 差劲 的 性 能 而 远离 了 线程 局 部 变量 ， 在 当前 的 Java 版 本 中 ， 可 以 
重新 考虑 一 下 。) 
同步 还 带 来 了 一 个 有 趣 的 问题 ， 因 为 线程 局 部 对 象 的 性 能 优势 通常 会 用 节省 了 同步 的 代价 
来 表达 (而 不 说 这 是 重用 对 象 的 好 处 )。 比 如 ，Java 7 引入 了 一 个 ThreadLocalRandon 类 ， 
这 个 类 (而 不 是 一 个 Randon 实例 ) 也 用 到 了 示例 股票 应 用 中 。 此 外 ， 本 书 中 的 很 多 例子 在 
Random 对 象 的 next() 方法 上 都 会 遇 到 一 个 同步 瓶颈 。 使 用 线程 局 部 对 象 是 避免 同步 瓶颈 
的 好 方法 ， 因 为 只 有 一 个 线程 能 使 用 这 个 对 象 。 
然而 ， 只 要 让 这 个 例子 每 次 需要 时 ， 就 简单 地 创建 一 个 新 的 Randon 实例 ， 同 步 问 题 也 能 轻 
公 解 决 。 不 过 ， 这 样 解决 同步 问题 对 整体 性 能 没什么 帮助 :初始 化 一 个 Randon 对 象 的 开销 
非常 大 ， 而 且 持 续 创 建 这 个 类 的 实例 ， 与 在 多 个 线程 间 共 享 一 个 类 实例 的 同步 瓶颈 相 比 ， 
性 能 可 能 更 差 。 
使 用 ThreadLocaLRandom 类 性 能 会 更 好 ， 如 表 7-4 所 示 。 这 个 例子 使 用 了 batching stock 应 
用 ， 对 于 每 支 股票 ， 有 创建 新 的 Random 实例 和 重用 ThreadLocaLRandonm 两 种 方案 。 


表 7-4: 在 计算 股票 时 使 用 ThreadLocalRandom 的 效果 

















































































































股票 数量 分 配 新 的 Random ( 秒 ) 重用 ThreadLocalRandonm ( 秒 ) 
1 0.174 0.175 
10 0.258 0.236 
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( 续 ) 








股票 数量 分 配 新 的 Random ( 秒 ) 重用 ThreadLocalRandom ( 秒 ) 
100 0.564 0.49 

1000 2.308 1.916 

10 000 17.32 13.55 





对 于 一 般 的 对 象 重用 ， 这 里 的 经 验 是 ， 在 初始 化 对 象 需要 很 长 时 间 时 ， 不 用 展 慢 探索 用 对 
象 池 或 线程 局 部 变量 技术 来 重用 那些 创建 开销 高 昂 的 对 象 。 不 过 还 是 要 找到 一 个 平衡 点 : 
对 于 一 般 的 类 ， 较 大 的 对 象 池 所 带 来 的 性 能 器 题 很 可 能 比 解决 的 问题 还 要 多 。 所 以 应 该 将 
这 些 技术 应 用 于 初始 化 成 本 高 郧 ， 以 及 重用 对 象 的 数目 比较 小 时 。 


快速 小 结 

1. 对 象 重用 通常 是 一 种 通用 操作 ,我们 并 不 鼓励 使 用 它 。 但 是 这 种 技术 可 
能 适合 初始 化 成 本 高 昂 ， 而 且 数量 比较 少 的 一 组 对 象 。 

2. 在 使 用 对 象 池 还 是 使 用 线程 局 部 变量 这 两 种 技术 之 间 ， 应 该 有 所 取舍 。 
一 般 而 言 ， 建 设 线程 和 可 重用 对 象 直接 存在 一 一 对 应 关系 ， 则 线程 局 部 
变量 更 容易 使 用 。 



































7.3.2” 弱 引用 、 软 引用 与 其 他 引用 


在 Java 中 ， 弱 引用 和 软 引 用 也 支持 对 象 重 用 ， 不 过 作为 开发 者 ， 我 们 并 不 会 经 常 从 重用 的 
角度 看 竺 它们。 我 会 一 般 性 地 将 其 称 作 非 确定 引用 。 这 些 类 引用 更 多 用 于 缓存 一 个 较 长 的 
计算 或 者 一 个 数据 库 查询 的 结果 ， 而 非 用 于 重用 对 象 。 比 如 ， 在 股票 Servlet 中 ， 可 以 用 一 
个 非 确定 引用 来 缓存 getHistory() 方法 (该 方 法 需要 很 长 的 计算 ,或 者 需要 很 长 的 数据 库 
调用 ) 的 结果 。 这 个 结果 只 是 一 个 对 象 ， 当 通过 非 确 定 引 用 来 缓存 它 时 ， 我 们 只 是 简单 地 
重用 了 该 对 象 ， 不 然 的 话 ， 初 始 化 开销 会 很 高 。 


























术语 说 明 
讨论 弱 引 用 和 软 应 用 可 能 会 令 人 困惑 ， 因 为 很 多 术语 使 用 了 类 似 的 词汇 。 下 面 是 这 些 
术语 的 一 个 简单 入 门 介绍 。 
引用 (Reference) 
引用 (或 者 说 对 象 引 用 ) 可 以 是 任何 类 型 的 引用 : 强 引 用 、 弱 引用 、 软 引用 等 。 指 
向 一 个 对 象 的 普通 引用 实例 变量 就 是 一 个 强 引 用 。 
非 确定 引用 (Indefinite reference) 
本 书 使 用 这 个 术语 来 区 分 强 引用 和 其 他 特殊 引用 (比如 软 引 用 或 弱 引 用 )。 一 个 非 
确定 应 用 其 实 是 一 个 对 象 实例 (比如 ，SoftReference 类 的 一 个 实例 ) 。 
所 引 对 象 (Referent) 
非 确定 引用 的 工作 方式 是 ， 在 非 确定 引用 类 的 实例 内 ， 谈 入 另 一 个 引用 (几乎 总 是 
瞪 入 一 个 强 引用 ) 。 被 封装 的 对 象 称 作 “所 引 对 象 ”。 




















不 过 ， 很 多 程序 员 仍然 会 有 不 同 的 感觉 。 实 际 上 ， 该 术语 也 反映 出 这 样 一 点 : 没有 人 说 
“缓存 ”一 个 线程 用 于 重用 ， 但 是 我 们 将 在 缓存 数据 库 操 作 结 果 方 面 探 索 非 确定 引用 的 
重用 。 


与 对 象 池 或 线程 局 部 变量 相 比 ， 非 确定 引用 的 优势 在 于 ， 它 们 最 终 会 被 垃圾 收集 器 回收 。 
如 果 对 象 池 中 包含 了 已 经 执行 的 最 后 10 000 个 股票 查询 ， 堆 的 运行 就 会 变 慢 ， 应 用 也 会 受 
牵连 : 去 掉 那 10 000 个 元 素 所 占据 的 堆 ， 剩 下 的 就 是 应 用 可 以 使 用 的 其 余 堆 了 。 如 有 果 这 些 
查询 是 通过 非 确定 引用 保存 的 ，JVM 就 可 以 释放 一 些 空间 (取决 于 引用 的 类 型 )， 从 而 获 
得 更 好 的 GC 吞 叶 量 。 


非 确 定 引 用 的 缺点 是 对 垃圾 收集 器 的 效率 会 有 轻微 影响 。 图 7-7 对 比 了 不 使 用 与 使 用 非 确 
定 引 用 时 内 存 的 使 用 情况 (这 里 用 的 是 弱 引 用 )。 





















































lastViewed lastViewed 
StockHistory StockHistory 
512 字 节 512 字 节 


SoftReference 
40 字 节 





cachedValue 











7-7: 非 确定 引用 的 内 存 分 配 


被 缓存 的 对 象 占 了 512 字 节 。 在 左 侧 的 就 是 消耗 的 所 有 内 存 (没有 指向 对 象 的 实例 变量 
占据 的 内 存 )。 在 右 侧 ， 对 象 被 缓存 在 一 个 SoftReference 内 ， 额 外 增加 了 40 字 节 的 内 存 
消耗 。 非 确定 引用 和 其 他 任何 对 象 一 样 : 它们 也 消耗 内 存 ， 而 且 其 他 变量 (图 中 右 侧 的 
cachedValue 变量 ) 也 是 通过 强 引 用 引用 它们 。 

所 以 对 垃圾 收集 器 的 第 一 个 影响 是 ， 非 确定 引用 会 导致 应 用 使 用 更 多 内 存 。 对 垃圾 收集 器 
的 更 大 的 影响 体现 为 ， 垃 圾 收集 器 要 回收 非 确 定 引 用 ， 至 少 需要 两 个 GC 周期 。 

7-8 说 明了 当 一 个 所 引 对 象 不 再 被 强 引用 时 ( 即 LastViewed 被 设置 为 nutL) ， 会 发 生 什 
么 。 如 果 没 有 对 StockHistory 对 象 的 引 上 用， 在 下 一 次 GC 期 间 ， 该 对 象 会 被 释放 。 所 以 图 
的 左 侧 现在 消耗 的 内 存 为 0 字 节 。 


















































lastViewed lastViewed 


Null Null 
0 字 布 0 字 节 


SoftReference 
40 字 布 


cachedValue 











图 7-8: 在 GC 周期 间 非 确定 引用 保留 的 内 存 


在 图 的 右 侧 ,仍然 有 内 存 消 耗 。 所 引 对 象 被 释放 的 精确 时 机 ， 会 随 非 确定 引用 类 型 的 不 同 
而 有 所 不 同 ， 暂 时 只 考虑 软 引 用 的 情况 。 所 引 对 象 将 仍然 逗留 在 内 存 中 ， 直 到 JVM 确定 
近期 不 会 再 使 用 它 。 当 这 个 条 件 出 现时 ， 第 一 次 GC 会 释放 所 引 对 象 ， 但 不 是 非 确定 引用 

















本 身 。 应 用 最 终 的 内 存 状 态 如 图 7-9 所 示 。 





lastViewed lastViewed 
Null Null 
0 字 贡 0 字 节 






Reference 


SoftReference 
Queue — > 加 字 节 


cachedValue 











图 7-9: 非 确定 引用 不 会 立即 清理 
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现在 ， 对 于 非 确 定 引用 对 象 本 身 ，( 至 少 ) 有 两 个 强 引用 指向 它 : 由 应 用 创建 的 原始 的 强 
引用 ， 再 就 是 由 JVM 创建 的 、 在 所 引 对 象 队列 上 的 一 个 新 的 强 引 用 。 在 非 确 定 引 用 对 象 
本 身 被 垃圾 收集 器 回收 之 前 ， 必 须 先 清理 掉 所 有 这 些 强 引用 。 


这 种 代码 通常 是 由 处 理 引用 队列 的 代码 处 理 的 。 如 果 在 队列 上 有 新 对 象 创建 ， 代 码 会 得 到 
通知 ， 并 立即 移 除 指向 该 对 象 的 所 有 强 引 用 。 之 后 ， 在 下 一 个 GC 期 间 ， 非 确定 引用 对 象 
会 被 释放 。 最 糟糕 的 情况 是 ， 引 用 队列 没有 立即 被 处 理 ， 有 可 能 要 经 过 多 个 GC 周期 ， 才 
能 将 一 切 清理 干净 。 然 而 即便 在 最 好 的 情况 下 ， 非 确定 引用 在 释放 之 前 也 必须 经 历 两 个 
GC 周期 。 


依赖 于 非 确定 引用 的 类 型 ， 处 理 算 法 也 有 较 大 差异 ， 但 是 所 有 的 非 确定 引用 某 种 程度 上 都 
有 这 类 性 能 损失 。 































































































GC 日 志 与 引用 处 理 


当 运 行 一 个 使 用 了 大 量 非 确定 引用 的 对 象 时 ， 可 以 考虑 添加 -XX:+PrintReferenceGC 标 
志 (默认 为 false)。 这 样 就 能 看 到 处 理 这 些 引 用 花 了 多 少时 间 : 


[GC[SoftReference, 0 refs, 0.0000060 secs] 
[WeakReference, 238425 refs, 0.0236510 secs] 
[FinalReference, 4 refs, 0.0000160 secs] 
[PhantomReference, 0 refs, 0.0000010 secs] 
[IJNI Weak Reference, 0.0000020 secs] 
[PSYoungGen: 271630K->17566K(305856K)] 
271630K->17566K(1004928K) ，0.0797140 secs] 
[Times: user=0.16 sys=0.01, real=0.08 secs] 








在 这 个 例子 中 ，238 425 个 弱 引 用 的 使 用 使 得 Young GC 的 时 间 增 加 了 23 毫秒 。 





1. 软 引用 

如 果 问 题 中 的 对 象 以 后 有 很 大 的 机 会 重用 ， 可 以 使 用 软 引 用 ， 但 是 如 果 该 对 象 近期 一 直 没 
有 使 用 到 (计算 时 也 会 考虑 堆 还 有 多 少 内 存 可 用 )， 垃 圾 收集 器 会 回收 它 。 软 引用 本 质 上 
是 一 个 比较 大 的 、 最 近 最 久未 用 (LRU) 的 对 象 地 。 获 得 较 好 性 能 的 关键 是 确保 它们 会 被 
及 时 清理 。 
来 看 一 个 例子 。 股 票 Servlet 可 以 设置 一 个 股票 历史 的 全 局 缓存 ， 以 股票 代码 (或 者 代码 与 
日 期 ) 为 键 。 比 如 有 请 求 要 获取 TPKS 从 2013 年 6 月 1 日 到 2013 年 8 月 31 日 之 间 的 股 
价 历史 ， 可 以 先 看 看 缓存 ， 其 中 是 不 是 有 以 前 类 似 请 求 的 结果 。 


之 所 以 要 缓存 数据 ， 原 因 是 对 某 类 数据 的 请 求 往往 会 比 其 他 数据 更 多 。 如 果 对 TPKS 这 支 股 
票 的 请 求 最 多 ， 就 可 以 考虑 将 其 保存 到 软 引 用 缓存 中 。 另 一 方面 ， 查 询 一 次 KENG 这 支 股 
票 ， 其 结果 也 会 在 缓存 中 停留 一 段 时 间 ， 但 最 终 会 被 回收 。 对 于 随时 间 变 化 的 请 求 ， 也 是 
如 此 : 对 DNLD 的 一 群 请 求 ， 可 以 利用 第 一 次 请 求 的 结果 。 如 果 用 户 意识 到 DNLD 是 笔 糟糕 
的 投资 ， 那 些 缓存 的 条 目 最 终 会 从 堆 中 去 掉 。 

精确 地 讲 ， 一 个 软 引用 何 时 会 被 释放 呢 ? 首先 ， 所 引 对 象 一 定 不 能 有 其 他 的 强 引用 。 如 果 
软 引 用 是 指向 其 所 引 对 象 的 唯一 引用 ， 而 且 该 软 引 用 最 近 没 有 被 访问 过 ， 则 所 引 对 象 会 在 
下 一 次 GC 周期 释放 。 有 具体 而 言 ， 其 关系 可 以 用 如 下 伪 代 码 表示 : 
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Long ms = SoftRefLRUPolicyMSPerMB * AmountOfFreeMemoryInMB; 
if (now - Last_access_to_reference > ms) 
free the reference 


这 里 有 两 个 关键 值 。 第 一 个 是 由 -XX:SoftRefLRUPoLicyMSPerMB=W 标 志 设 置 的 ， 默 认 值 为 
1000。 


第 二 个 是 扒 中 空闲 内 存 的 数量 (在 一 个 GC 周期 完成 之 后 ) 。 因 为 堆 的 大 小 是 动态 变化 的 ， 
在 计算 堆 中 有 多 少 内 存 可 用 时 ，JVM 有 两 个 选择 : 堆 中 目前 的 空闲 内 存 数 量 ， 或 者 堆 扩展 
到 最 大 容量 后 的 空闲 内 存 数量 。 这 些 值 的 选择 是 由 所 用 的 编译 器 确定 的 。client 编译 器 是 
基于 当前 堆 中 的 可 用 值 ， 而 server 编译 器 堆 的 最 大 可 能 值 。 

那 这 都 是 怎么 工作 的 呢 ? 以 使 用 server 编译 器 、 堆 空间 为 4GB 的 JVM 为 例 在 一 
次 Full GC (或 一 个 并 发 周期 ) 之 后 ， 堆 可 能 被 占用 了 50%， 因 此 空闲 堆 是 2 GB。 
SoftRefLRUPoLicyMSPerMB 的 默认 值 (1000) 意味 着 在 过 去 的 2048 秒 (2 048 000 毫秒 ) 内 
没有 访问 到 的 任何 软 引 用 都 会 被 清理 : 空闲 堆 是 2048 (MB ) ， 再 乘 以 1000: 

Long ms = 2048000; // 1000 * 2048 


if (System.currentTimeMillis() - Last_access_to_reference_in_ ms > ms) 
free the reference 

















































































































如 果 4 GB 的 堆 占 用 了 75%， 则 过 去 的 1024 秒 内 没有 访问 到 的 对 象 会 被 回收 ， 以 此 类 推 。 


要 更 频繁 地 回收 软 引 用 ， 可 以 降低 SoftRefLRUPoLicyMSPerMB 标志 的 值 。 将 该 值 设 置 为 
500， 意 味 着 堆 大 小 为 4 GB 的 JVM 如 果 占 用 了 75%， 则 会 回收 过 去 512 秒 没 有 访问 到 的 
对 象 。 


如 果 堆 很 快 就 会 被 软 引 用 填 满 ， 则 调 优 该 标志 往往 是 必要 的 。 假 设 堆 有 2 GB 空间 ， 应 用 
开始 创建 软 引 用 。 如 果 它 在 不 到 2048 秒 (大 概 是 34 分 钟 ) 创建 了 1.7 GB 的 软 引 用 ， 则 这 
些 软 引 用 都 不 满足 回收 条 件 。 这 样 ， 堆 中 留 给 其 他 对 象 的 空间 就 只 有 300 MB 了 ; 这 会 导 
致 GC 频繁 进行 (对 整体 性 能 影响 很 坏 )。 


如 果 JVM 完 侈 耗 尽 了 内 存 ， 则 会 出 现 非常 严重 的 颠 复 (thrashing)， 它 会 清理 掉 所 有 的 软 
引用 ， 否 则 会 抛 出 0utofMemoryError。 不 抛 出 错误 当然 好 ， 但 是 不 分 青红皂白 地 丢掉 所 有 
缓存 的 结果 ， 可 能 也 不 理想 。 因 此 ， 另 一 个 降低 SoftRef1lRUPolicyMsPerMB 的 值 的 时 机 是 ， 
当 引 用 处 理 日 志 说 明 有 大 量 软 引用 意外 被 清理 时 。 如 7.1.3 节 的 “达到 GC 的 开销 限制 ”一 
节 所 讨论 的 ， 这 种 情况 在 4 次 连续 的 Full GC 周期 之 后 才 会 发 生 (而 且 仅 当 其 他 因素 都 已 
满足 时 ) 。 

男 一 方面 ， 对 于 长 期 运行 的 应 用 ， 如 果 满 足 如 下 两 个 条 件 ， 可 以 考虑 增 大 
SoftRef LRUPolicyMSPerMB 的 值 : 


。 有 很 多 空闲 堆 可 用 ， 

。 软 引 用 会 频繁 访问 。 

这 种 情况 非常 罕见 。 这 与 设置 GC 策略 所 讨论 的 情况 类 似 : 可 以 想象 ， 如 采 增 加 了 软 引 用 
策略 的 值 ， 就 是 告诉 JVM， 不 到 万 不 得 已 不 要 释放 软 引 用 。 确 实 如 此 ， 但 是 这 同时 也 告诉 
JVM， 堆 中 不 要 给 正常 操作 留任 何 空间 ， 结 果 很 可 能 会 导致 把 很 多 时 间 花 在 GC 上 。 
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应 该 注意 的 是 ， 不 要 使 用 太 多 软 引 用 ， 因 为 它们 很 容易 填 满 整个 堆 。 与 提防 创建 包含 太 多 
实例 的 对 象 地 相 比 ， 这 一 点 更 应 该 注意 : 如 果 对 象 的 数目 不 是 特别 大 ， 软 引用 就 会 工作 得 
很 好 。 否 则 ， 就 要 考虑 用 更 传统 的 、 固 定 大 小 的 对 象 池 来 实现 一 个 LRU 缓存 。 


2. 弱 引 用 
当 问 题 中 的 所 引 对 象 会 同时 被 几 个 线程 使 用 时 ， 应 该 考虑 弱 引 用 。 否 则 ， 弱 引用 很 可 能 会 
被 垃圾 收集 器 回收 : 只 有 弱 引 用 的 对 象 在 每 个 GC 周期 都 可 以 回收 。 


这 意味 着 ， 弱 引用 绝对 不 会 进入 图 7-8 所 示 的 软 引 用 的 状态 。 当 强 引 用 被 移 除 时 ， 弱 引用 
会 立即 释放 。 因 此 程序 的 状态 直接 从 图 7-7 到 达 图 7-9。 


这 里 有 个 有 趣 的 现象 ， 弱 引用 会 在 堆 中 终结 。 引 用 对 象 就 和 其 他 Java 对 象 一 样 : 在 年 轻 代 
中 创建 ， 最 终 会 被 提升 到 老年 代 。 如 果 弱 引用 本 身 仍然 在 年 轻 代 中 ， 而 弱 引 用 的 所 引 对 象 
被 释放 了 ， 则 弱 引 用 可 以 快速 释放 (下 一 次 Minor GC 时 )。( 假 定 问题 中 对 人 象 的 引用 队列 
会 被 快速 处 理 ,) 如 果 弱 引用 的 所 引 对 象 存在 了 足够 长 的 时 间 ， 被 提升 到 了 老年 代 中 ， 则 
弱 引 用 在 下 一 次 并 发 或 Full GC 周期 内 才 会 释放 。 


以 股票 Servlet 的 缓存 为 例 ， 假 设 我 们 知道 某 个 特定 用 户 会 在 其 会 话 期 间 访 问 TPKS， 他 几 
平 总 会 再 次 访问 。 在 该 用 户 的 HTTP 会 话 中 ， 用 一 个 强 引用 来 保存 股票 的 值 是 有 意义 的 : 
它 会 一 直 存 在 ， 一 旦 用 户 登 出 ，HTTP 会 话 就 会 被 清理 ， 而 内 存 也 会 被 回收 。 


如 果 另 一 个 用 户 来 了 ， 而 且 也 需要 TPKS 的 数据 ， 那 如 何 找到 数据 呢 ? 因为 对 象 在 内 存 中 
的 某 个 地 方 ， 我 们 不 想 重新 去 查找 ， 但 是 Servlet 代码 不 能 搜索 其 他 用 户 的 会 话 数据 ， 因 
此 ， 除 了 在 第 一 个 用 户 的 HTTP 会 话 中 保存 一 个 指向 TPKS 数据 的 强 引 用 外 ， 在 一 个 全 局 
缓存 中 保存 一 个 弱 引 用 ， 指 向 那个 数据 ， 也 是 有 意义 的 。 现 在 第 二 个 用 户 就 能 查找 TPKS 
数据 了， 当然 这 是 以 第 一 个 用 户 没有 登 出 并 清理 会 话 为 前 提 的 。( 这 就 是 本 章 的 堆 分 析 一 
节 中 所 用 的 场景 ， 甚 中 的 数据 有 两 个 引用 ， 通 过 在 最 大 的 保留 内 存 中 查看 对 象 ， 并 不 容易 
查找 。) 

这 就 是 所 谓 的 同时 访问 。 这 就 好 比 是 告诉 JVM:“ 嘿 ， 只 要 有 其 他 人 对 这 个 对 象 感 兴趣 ， 
就 让 我 知道 它 在 哪儿 ， 但 是 如 果 他 们 不 再 需要 它 了 ， 就 把 它 丢 弃 ， 我 自己 会 重新 创建 。 
比较 弱 引 用 与 软 引 用 ， 软 引用 基本 像 是 在 说 :“ 嘿 ， 只 要 有 足够 的 内 存 ， 而 且 看 上 去 有 人 
会 偶尔 访问 它 ， 那 就 保留 着 它 。 

如 果 不 理解 这 种 区 别 ， 在 使 用 弱 引 用 时 就 经 常会 出 现 性 能 问题 。 不 要 认为 除了 释放 更 快 ， 
弱 引 用 和 软 引 用 就 是 一 样 的 ， 别 犯 这 种 错误 : 软 引 用 的 对 象 通 常 可 以 存活 几 分 钟 甚至 几 小 
时 ,但 是 只 要 所 3 引 对 象 仍然 存在 ， 弱 引用 对 象 就 一 直 存 活 。( 下 一 个 GC 周期 会 清理 。) 


























































































































































































































非 确 定 引 用 与 集合 
在 Java 中 ， 集 合 类 经 常 是 内 存 泄漏 的 根源 : 比如， 某 个 应 用 将 对 象 放 入 了 一 个 
HashMap 对 象 中 ， 却 从 不 移 除 。 随 着 时 间 的 推移 ， 这 个 HashMap 对 象 就 会 越 来 越 大 ， 而 
且 消耗 堆 。 











为 处 理 这 种 情况 ， 开 发 者 喜欢 的 一 种 方式 是 使 用 保存 非 确定 引用 的 集合 类 。JDK 提供 
了 两 个 这 样 的 类 : WeakHashMap 和 WeakIdentityMap。 很 多 第 三 方 库 中 都 有 基于 软 引 用 
( 即 其 他 引用 ) 定制 集合 类 的 用 法 (包括 JSR 166 的 示例 实现 ， 比 如 用 在 如 何 创 建 和 保 
存 canonical 对 象 的 例子 中 使 用 的 那个 ) 。 


使 用 这 些 类 很 方便 ， 但 是 注意 ， 它 们 有 两 大 开销 。 其 一 ， 如 本 节 所 讨论 的 ， 非 确定 引 
用 对 垃圾 收集 器 有 不 利 影响 。 其 二 ， 二 
所 有 的 未 引用 数据 (也 就 是 说 ， 这 个 类 负责 处 理 它 所 保存 的 非 确定 引用 的 引用 队列 )。 


例如 ，WeakHashMap 类 的 键 使 用 了 弱 引 用 。 当 弱 引 用 的 键 不 再 可 用 时 ，WeakHashMap 代 
码 必 须 清理 掉 其 中 与 该 键 关联 的 值 。 每 次 引用 到 这 个 映射 时 ， 都 会 执行 该 操作 : 处 理 
弱 键 的 引用 队列 ， 从 映射 中 移 除 与 引用 队列 中 的 任何 键 关联 的 值 。 


性 能 方面 ， 有 两 点 意义 。 第 一 ， 弱 引用 及 其 关联 值 ， 当 这 个 映射 再 一 次 被 用 到 时 ， 才 
会 实际 释放 。 因 此 ， 如 果 这 个 映射 使 用 不 是 很 频繁 ， 则 意味 着 与 映射 关联 的 内 存 不 会 
如 预期 般 释放 得 那么 快 。 


第 二 ， 它 意味 着 该 映射 上 的 操作 的 性 能 是 难以 预测 的 。 正 常 而 言 ，hashmap 上 的 操作 
非常 快 ; 这 也 是 hashmap 得 以 流行 的 原因 所 在 。 紧 接 在 一 次 GC 之 后 的 WeakHashMap 
上 的 操作 ， 必 须 处 理 引 用 队列 ; 该 操作 的 时 间 不 再 固定 ， 而且 可 能 会 比较 长 。 因 此 ， 
即便 键 释放 不 是 很 频繁 ， 性 能 还 是 很 难 预 测 。 更 糟 的 是 ， 如 果 上 映射 中 的 键 会 频繁 释放 ， 
WeakHashMap 的 性 能 可 常 差 。 


基于 非 确定 引用 的 集合 可 能 很 有 用 ,但 是 应 该 谨慎 使 用 。 如 果 可 能 ， 让 应 用 自己 管理 
集合 。 











3. 终结 器 (Finalizer) 和 最 终 引 用 (Final Reference) 
每 个 Java 类 都 有 一 个 从 0bject 类 继承 而 来 的 finalize() 方法 ;在 对 象 可 以 被 垃圾 收集 器 
回收 时 ， 可 以 用 这 个 方法 来 清理 数据 。 这 听 上 去 是 个 不 错 的 特性 ， 而 且 在 有 些 情况 下 是 需 
要 的 。 然 而 在 实践 中 ， 结 果 往 往 很 糟 ， 应 该 尽量 不 要 使 用 这 个 方法 。 


0 终结 器 不 是 很 好 ， 另 外 ， 它 们 的 性 能 也 不 好 。 终 结 器 实际 上 是 非 确 
定 引 用 的 一 种 特殊 情况 : JVM 使 用 了 一 个 私有 的 引用 类 (java.lang.ref.finalizer， 它 又 
是 i A 的 子 类 ) 来 记录 定义 了 finaLize() 方法 的 对 象 。 当 一 个 
具有 finalLize() 方法 的 对 象 被 分 配 时 ，JVM 会 分 配 两 个 对 象 : 一 个 是 该 对 象 本 身 ， 另 一 
个 是 一 个 以 该 对 象 为 所 引 对 象 的 finaLizer 引用 。 


和 其 他 非 确定 引用 一 样 ， 在 非 确定 应 用 对 象 释放 之 前 ， 至 少 需要 两 个 GC 周期 。 然 而 ， 这 
里 的 性 能 损失 要 比 其 他 非 确 定 引 用 类 型 大 得 多 。 当 软 引 用 或 弱 引 用 的 所 引 对 象 可 以 被 GC 
回收 时 ， 所 引 对 象 本 身 会 立即 释放 ， 这 就 会 出 现 前 面 图 7-9 所 示 的 内 存 使 用 情况 。 弱 引用 
或 软 引 用 放 在 引用 队列 中 ， 但 是 引用 对 象 不 会 再 指向 任何 东西 (也 就 是 说 ，get() 方法 会 
返回 nulL， 而 不 是 原来 的 所 引 对 象 )。 在 软 引 用 和 弱 引 用 的 情况 下 ， 两 个 周期 的 性 能 损失 
只 是 引用 对 象 本 身 的 〈 而 非 所 引 对 象 的 ) 。 


finalReference 就 不 是 这 样 了 。 要 调用 所 引 对 象 的 finaLize() 方法 ，finalizer 类 的 实现 
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必须 能 够 访问 该 对 象 ， 因 此 ， 当 终结 器 引用 被 放 到 引用 队列 中 时 ， 所 引 对 象 不 能 释放 。 妆 
某 个 终结 器 的 所 引 对 象 可 以 回收 时 ， 程 序 状态 可 以 用 图 7-10 表示 。 























lastViewed lastViewed 
Null Null 
0 字 节 0 字 节 


StockHistory 


512 字 节 





Reference 


Queue 一 “| FinalReference 


40 字 区 








图 7-10: 终结 器 引用 要 保留 更 多 内 存 


当 引 用 队列 处 理 终结 器 时 ，finalizer 对 象 照例 会 被 从 队列 中 移 除 ， 之 后 就 可 以 回收 了 。 
直到 那 时 ， 所 引 对 象 才 会 被 释放 。 与 其 他 非 确定 引用 相 比 ， 终 结 器 对 GC 的 性 能 影响 更 大 ， 
原因 就 在 于 此 : 与 非 确 定 引 用 对 象 本 身 消 耗 的 内 存 相 比 ， 所 引 对 象 消耗 的 内 存 更 为 显著 。 


这 会 带 来 一 个 功能 性 问题 ，finalLize() 方法 可 能 会 不 小 心 又 创建 了 一 个 指向 所 引 对 象 的 
新 的 强 引 用 。 而 这 又 会 引起 GC 性 能 损失 : 现在 ， 直 到 不 再 存在 强 引 用 时 ， 所 引 对 象 才 
能 释放 。 从 功能 上 讲 ， 这 引发 了 一 个 大 问题 ， 因 为 当下 一 次 所 引 对 象 可 以 被 回收 时 ， 其 
finalize() 方法 不 会 被 调用 ， 预 期 的 清理 工作 也 不 会 进行 。 这 类 错误 就 足以 解释 为 什么 要 
尽 可 能 少 用 终结 器 了 。 

遗憾 的 是 ， 某 些 情况 下 终结 器 是 不 可 避免 的 。 比 如 ，JDK 就 在 其 操作 ZIP 文件 的 类 中 使 用 
了 终结 器 ， 因 为 打开 ZIP 文件 会 使 用 一 些 分 配 原生 内 存 的 原生 代码 。 这 些 内 存 会 在 ZIP 文 
件 关闭 时 释放 ， 但 是 如 果 开 发 者 忘记 调用 close() 方法 ， 那 该 怎么 办 呢 ? 事实 上 ， 终 结 器 
可 以 确保 close() 方法 被 调用 ， 即 便 开发 者 忘 了 。 


通常 ， 如 果 使 用 终结 器 是 不 可 避免 的 ， 那 么 一 定 要 确保 尽量 减少 该 对 象 访问 的 内 存 。 
对 于 使 用 终结 器 ， 还 有 一 种 替代 方案 ， 至 少 可 以 避免 部 分 问题 。 特 别 是 ， 这 种 方案 支持 在 
正常 的 GC 操作 期 间 释 放 所 引 对 象 。 这 是 通过 使 用 另 一 种 非 确定 引用 实现 的 ， 而 非 隐 式 地 
使 用 finalizer 引用 。 

对 于 这 个 目的 ， 有 时 推荐 使 用 另 一 种 非 确 定 引用 类 型 : PhantomReference ( 虚 引 用 ) 类 。 
这 是 个 不 错 的 选择 ， 因 为 一 旦 没有 指向 所 引 对 象 的 强 引用 了 ， 引 用 对 象 就 可 以 相当 快 地 清 
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理 ， 而 且 在 调试 的 时 候 ， 该 引用 的 意图 会 很 清晰 。 当 然 也 可 以 利用 弱 引 用 实现 同样 目标 
(另外 ， 弱 引用 可 以 用 在 更 多 地 方 )。 在 特定 情况 下 ， 如 果 软 引用 的 缓存 语义 匹配 应 用 的 需 


求 ， 可 以 使 用 软 引 用 。 





























下 面 看 一 种 替代 方案 。 要 创建 一 个 替代 的 终结 器 ， 先 创建 非 确定 引用 的 一 个 子 类 ， 来 保存 
需要 在 所 引 对 象 被 回收 后 再 清理 的 任何 信息 。 然 后 在 引用 对 象 的 一 个 方法 内 执行 清理 操作 





























(与 在 所 引 对 象 内 定义 finalize() 方法 完全 不 同 )。 


private static class CleanupFinalizer extends WeakReference { 


private static ReferenceQueue<CleanupFinalizer> finRefQueue; 


private static HashSet<CleanupFinalizer> pendingRefs = new HashSet<>(); 


private boolean closed = false; 


public CleanupFinalizer(Object o) { 
super(o, finRefQueue); 
allocateNative(); 
pendingRefs .add(this); 

J 


public void setClosed() { 
closed = true; 
doNativeCleanup(); 

J 


public void cleanup() { 
if (!closed) { 
doNativeCleanup(); 
} 
} 


private native void allocateNative(); 
private native void doNativeCleanup(); 


} 


以 上 就 是 这 样 一 个 类 的 大 概 轮 廊 ， 它 使 用 了 一 个 弱 引 用 。 构 造 器 中 会 分 配 一 些 原生 资源 。 











不 过 这 个 弱 引 用 也 被 放 到 了 一 个 引用 队列 中 。 当 该 引用 被 从 队列 中 取 昌 





内 存 是 否 已 经 清理 ， 如 果 没 有 ， 就 清理 掉 。 
对 引用 队列 的 处 理 在 一 个 守护 线程 中 进行 : 


static { 
finRefQueue = new ReferenceQueue<>(); 
Runnable r = new Runnable() { 
public void run() { 
CleanupFiinalizer fr; 
while (true) { 
try { 








在 正常 使 用 的 情况 下 ， 它 会 调用 setclosed() 方法 ， 并 清理 原生 内 存 。 





HH 时， 可 以 检查 原生 


fr = (CleanupFinalizer) fiLnRefQueue.remove(); 


fr.cleanup(); 
pendingRefs.remove(fr); 
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} catch (Exception ex) { 
Logger .getLogger( 
CleanupFinalizer .class.getName()). 
log(Level.SEVERE, null, ex); 
} 
} 
} 
}; 
Thread t = new Thread(r); 
t.setDaemon(true); 
t.start(); 
} 


这 些 都 放 到 一 个 私有 的 静态 内 部 类 中 ， 隐 藏 到 开发 者 使 用 的 实际 类 之 内 ， 最 后 看 上 去 是 这 
样 的 : 
public class CleanupExample { 


private CleanupFinalizer cf; 
private HashMap data = new HashMap(); 


public CleanupExample() { 
cf = new CleanupFinalizer(this); 


es 向 hashmap 中 填 东 西 的 方法 …… 


public void close() { 
data = null; 
cf.setClosed(); 
} 
} 


开发 者 就 和 构建 其 他 任何 对 象 一 样 构 建 这 样 的 对 象 。 开 发 者 被 告知 要 调用 close() 方法 ， 
它 会 清理 原生 内 存 ， 但 是 如 果 开 发 者 没 调用 ， 也 没 问 题 。 弱 引用 仍然 存在 于 背后 ， 所 以 当 
内 部 类 处 理 弱 引 用 时 ，Cleanupfinalizer 类 自 有 机 会 处 理 原生 内 存 。 


这 个 例子 中 有 一 个 技巧 ， 即 用 pendingRefs 保存 弱 引 用 。 如 果 没 有 它 ， 弱 引用 本 身 在 有 机 
会 进入 引用 队列 之 前 就 会 被 收集 了 。 


这 个 例子 克服 了 传统 终结 器 的 两 个 局 限 性 ， 它 性 能 更 好 ， 因 为 所 引 对 象 一 回收 ， 与 其 关 
联 的 内 存 (这 个 例子 中 是 data 这 个 HashMap) 就 会 释放 (而 不 是 在 finalizer() 方法 中 进 
行 )。 而 且 所 引 对 象 是 无 法 在 清理 代码 中 复活 的 ， 因 为 它 已 经 被 回收 。 

当然 ， 其 他 反对 使 用 终结 器 的 意见 也 可 以 放 到 这 里 : 我 们 无 法 确保 垃圾 收集 器 能 抽出 时 
间 释 放 所 引 对 象 ， 也 无 法 确保 引用 队列 线程 会 处 理 队列 中 的 任何 特定 对 象 。 如 果 有 很 多 
这 样 的 对 象 ， 处 理 引 用 队列 的 成 本 就 会 很 高 。 和 所 有 非 确 定 引 用 一 样 ， 这 个 例子 也 应 该 
谨慎 使 用 。 






































终结 器 队列 
终结 器 队列 是 一 个 引用 队列 ， 用 于 当 所 引 对 象 可 以 被 GC 回收 时 处 理 Finalizer 引用 。 
在 执行 堆 转 储 分 析 时 ， 确 保 终结 器 队列 中 没有 对 象 ， 往 往 会 方便 一 些 ， 反 正 这 类 对 象 
即将 被 释放 ， 所 以 在 堆 转 储 中 去 掉 它 们 ， 分 析 堆 中 的 其 他 状况 会 更 方便 。 可 以 通过 如 
下 命令 让 JVM 处 理 终结 器 队列 : 
% jcmd process_id GC.run_finalization 

要 监控 Finalizer 队列 ， 看 看 它 是 否 是 应 用 中 的 问题 ， 可 以 在 jconsole 的 VM Summary 
选项 卡 中 看 看 它 的 大 小 (这 是 实时 更 新 的 )。 脚 本 可 以 通过 运行 如 下 命令 收集 该 信息 : 


% jmap -finalizerinfo process_id 











快速 小 结 

1. 非 确定 引用 (包括 软 引 用 、 弱 引用 、 虚 引用 和 最 终 引 用 ) 会 改变 Java 对 
象 正常 的 生命 周期 ， 与 池 或 线程 局 部 变量 相 比 ， 它 可 以 以 对 GC 更 为 友 
好 的 方式 实现 对 象 重用 。 

2. 当 应 用 对 某 个 对 象 感 兴趣 ， 而 且 该 对 象 在 应 用 中 的 其 他 地 方 有 强 引用 时 ， 
才 应 该 使 用 弱 引 用 。 

3. 软 引 用 保存 可 能 长 期 存在 的 对 象 ， 提 供 了 一 个 简单 的 、 对 GC 友好 的 


























LRU 缓存 。 
4. 非 确 定 引 用 自身 会 消耗 内 存 ， 而 且 会 长 时 间 抓 住 其 他 对 象 的 内 存 ， 应 该 
谨慎 使 用 。 
7.4 ”小结 














内 存 管 理 对 Java 程序 的 快慢 至 关 重 要 。 调 优 GC 非常 重要 ， 但 是 要 获得 最 好 的 性 能 ， 在 应 
用 内 必须 有 效 地 利用 内 存 。 


目前 的 硬件 趋势 往往 不 鼓励 开发 者 考虑 内 存 : 如 果 我 的 笔记 本 有 16 GB 内 存 ， 我 为 什么 
要 关心 某 个 对 象 中 有 一 个 多 余 的 、 未 使 用 的 8 字 布 大 的 对 象 引 用 呢 ? 我 们 还 忘记 了 一 点 ， 
程 中 通常 的 时 间 和 空间 之 间 的 取舍 ， 有 可 能 会 变 成 时 间 和 空间 与 时 间 (time/space-and- 
time) 之 间 的 取舍 : 使 用 太 多 堆 空间 可 能 会 降低 性 能 ， 因 为 需要 更 多 GC。 在 Java 中 , 管理 
堆 仍然 非常 重要 。 


多 数 管理 问题 都 围绕 何 时 以 及 如 何 使 用 特殊 的 内 存 技术 展开 : 对 象 池 、 线 程 局 部 变量 和 非 
确定 引用 。 明 智 地 使 用 这 些 技术 可 以 极 大 改进 应 用 性 能 ， 但 是 过 度 使 用 也 很 容易 引起 性 能 
下 降 。 在 限量 的 情况 下 ， 也 就 是 问题 中 的 对 象 数 目 很 少 ， 而 且 有 个 边界 时 ， 使 用 这 些 内 存 
技术 会 非常 高 效 。 








浴 
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原生 内 存 最 佳 实 践 





在 Java 应 用 中 ， 堆 消耗 的 内 存 是 最 多 的 。 但 是 除 堆 之 外 ，JVM 还 会 分 配 并 使 用 大 量 的 原 
生 内 存 。 第 7 章 从 编程 的 角度 探讨 了 高 效 管 理 堆 的 不 同方 式 ， 不 过 ， 扒 的 配置 以 及 堆 如 何 
与 操作 系统 的 原生 内 存 交 互 ， 古 影响 应 用 程序 整体 性 能 的 另 一 个 重要 因素 。 


本 章 将 从 几 个 方面 探讨 原生 内 存 (或 者 说 操作 系统 内 存 )。 我 们 将 从 JVM 整体 内 存 使 用 情 
况 和 人 手 ， 目 的 在 于 理解 如 何 监控 内 存 的 使 用 情况 ， 以 解决 性 能 问题 。 之 后 将 讨论 为 达到 最 
理想 的 内 存 使 用 状况 而 采用 的 调 优 JVM 和 操作 系统 的 不 同方 式 。 


8.1 内 存 占用 


在 JVM 使 用 的 内 存 中 ,通常 堆 消 耗 的 部 分 最 多 ,但 是 JVM 也 会 为 内 部 操作 分 配 一 些 内 
存 。 这 类 非 堆 内 存 就 是 原生 内 存 。 应 用 中 也 可 以 分 配 原 生 内 存 (通过 JNI 调用 malloc() 和 
类 似 方法 ， 或 者 是 使 用 New WO， 即 NIO 时 )。JVM 使 用 的 原生 内 存 和 堆 内 存 的 总 量 ， 就 
是 一 个 应 用 总 的 内 存 占用 (Footprint)。 


从 操作 系统 的 视角 看 ， 总 的 内 存 占用 是 性 能 的 关键 。 如 果 没 有 足够 的 物理 内 存 来 容纳 应 用 
总 的 内 存 占 用 ， 性 能 可 能 就 要 出 问题 了 。 这 里 有 个 词 很 关键 :“ 可 能 ”。 部 分 原生 内 存 只 
是 在 启动 时 使 用 一 下 (比如 与 加 载 classpath 下 的 JAR 文件 有 关 的 内 存 )， 如 果 这 类 内 存 被 
交换 出 去 ， 我 们 未 必 会 注意 到 。 有 时候， 一 个 Java 进程 使 用 的 原生 内 存 会 与 系统 中 的 其 
他 Java 进程 共享 ， 还 有 更 少 一 部 分 内 存 会 与 系统 中 的 其 他 类 型 的 进程 共享 。 不 过 多 数 情 况 
下 ， 为 优化 性 能 ， 我 们 希望 确保 所 有 Java 进程 总 的 内 存 占用 不 超过 机 器 的 物理 内 存 (加 之 
可 能 还 要 给 其 他 应 用 留 些 内 存 )。 
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8.1.1 测量 内 存 占 用 


要 测量 一 个 进程 总 的 内 存 占 用 ， 需 要 根据 所 用 的 操作 系统 选择 特定 的 工具 。 在 基于 Unix 
的 系统 中 ， 像 top 和 ps 这 样 的 程序 可 以 给 出 基本 数据 ， 在 Windows 中 ， 可 以 使 用 perfmon 
或 VMMap。 不 管 使 用 何 种 工具 ， 何 种 平台 ， 都 需要 看 看 进程 实际 分 配 的 内 存 (这 与 保留 的 
内 存 完全 不 同 )。 


之 所 以 存在 已 分 配 内 存 和 保留 内 存 之 分 ， 是 由 JVM (及 所 有 程序 ) 管理 内 存 的 方式 导致 
的 。 考 虑 一 个 使 用 参数 -Xms512m -Xmx2648nm 指定 的 堆 ， 它 一 开始 会 使 用 512 MB 的 内 存 ， 
之 后 会 根据 需要 重新 调整 大 小 ， 以 满足 应 用 程序 的 GC 目标 。 


这 个 概念 就 是 提交 内 存 (或 者 说 已 分 配 内 存 ) 和 保留 内 存 (有 了 时 叫 作 进 程 的 虚拟 内 存 ) 自 
本 质 区 别 。 
多 内 存 : 操作 系统 承诺 ， 当 JVM 因为 要 增加 堆 而 尝试 分 配额 外 的 内 存 时 ， 这 些 内 存 是 可 
以 获取 到 的 。 


最 初 分 配 的 内 存 仍然 是 只 有 512 MB ， 而 且 这 就 是 堆 实际 用 到 的 全 部 内 存 。 这 些 已 经 实际 
分 配 的 内 存 ， 就 是 提交 内 存 。 提 交 内 存 的 量 会 随 堆 的 重新 调整 而 波动 ， 特别 是 ， 提 交 内 存 
会 随 着 堆 的 增加 而 相应 增加 。 



















































































超 量 保留 有 没有 问题 ? 
在 考察 性 能 时 ， 只 有 提交 的 内 存 才 有 价值 ， 绝 对 不 会 因为 保留 了 太 多 内 存 而 出 现 性 能 
问题 
Vt 因为 32 位 
应 用 的 最 大 进程 空间 是 4 GB (或 者 更 少 ， 跟 操作 系统 有 关 )， 保 留 过 多 内 存 可 能 会 
成 为 问题 。 如 果 JVM 为 堆 保留 了 3.5 GB 的 内 存 ， 那 为 栈 、 Re 
原生 内 存 就 只 有 0.5 GB 了 。 堆 是 不 是 只 提交 了 1 GB 内 存 并 不 重要 ， 因 为 它 保留 
3.5 GB ， 那 给 其 他 操作 留 下 的 内 存 就 限制 为 0.5GB 了 。 


64 位 的 JVM 没有 进程 空间 大 小 的 这 种 限制 ， 但 是 又 受 限 于 机 器 的 虚拟 内 存 总 量 。 比 
如 说 有 一 台 小 型 服务 器 ， 物 理 内 存 有 4 GB， 庶 拟 内 存 有 10 GB ， 我 们 启动 一 个 堆 大 
小 为 6 GB 的 JVM。 它 会 保留 6 GB 的 虚拟 内 存 (外 加 一 些 非 堆 内 存 部 分 )。 不 管 这 
个 堆 实 际 增长 到 多 大 (提交 多 少 内 存 )， 这 台 机 器 上 的 第 二 个 JVM 保留 的 内 存 都 要 
小 于 4GB。 


凡事 都 有 两 面 ， 给 JVM 的 内 部 结构 多 分 配 些 空间 ， 让 JVM 优化 其 使 有 用， 这样 比较 方 
便 ， 但 未 必 总 是 可 行 。 











这 种 差异 几乎 存在 于 JVM 分 配 的 所 有 重要 内 存 区 域 中 。 随 着 越 来 越 多 的 代码 被 编译 ， 代 
码 缓存 会 从 初始 值 向 最 大 值 增 长 。 单 独 分 配 的 持久 代 或 元 空间 也 会 从 初始 大 小 〈 提 交 内 
存 ) 向 最 大 大 小 (保留 内 存 ) 增长 。 


线程 栈 是 个 例外 。JVM 每 次 创建 线程 时 ， 操 作 系统 会 分 配 一 些 原生 内 存 来 保存 线程 栈 ， 向 
进程 提交 更 多 内 存 (至 少 要 等 到 线程 退出 )。 线 程 栈 是 在 创建 时 全 部 分 配 的 。 
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在 Unix 系统 中 ， 一 个 应 用 实际 的 内 存 占用 ， 可 以 用 各 种 操作 系统 工具 所 报告 的 进程 驻 留 
集 大 小 (Resident Set size，RSS) 来 估算 。 在 评估 一 个 进程 使 用 的 提交 内 存量 时 ， 这 个 值 
不 失 为 一 个 好 的 衡量 依据 ， 不 过 它 有 两 个 不 够 精确 的 地 方 。 其 一 ， 在 JVM 和 其 他 进程 之 
间 ， 有 些 在 操作 系统 层面 共享 的 页 面 (共享 库 的 text 部 分 )， 会 被 计算 在 每 个 进程 的 RSS 
中 。 其 二 ， 随 时 可 能 会 出 现 这 样 的 情况 ， 即 一 个 进程 的 提交 内 存 多 于 实际 调和 人 的 页 面 。 即 
便 如 此 ， 跟 踪 一 个 进程 的 RSS 仍 是 监控 整体 内 存 使 用 情况 的 不 错 的 第 一 步 。 在 较 新 的 
Linux 内 核 中 ，PSS 是 对 RSS 的 改进 ， 去 掉 了 和 其 他 程序 共享 的 数据 。 


在 Windows 系统 中 ， 与 Unix 中 的 RSS 等 同 的 概念 叫 作 应 用 的 “工作 集 ”(working set)， 
这 个 信息 是 任务 管理 器 提供 的 。 


8.1.2 内存 占 用 最 小 化 

为 将 JVM 的 内 存 占 用 最 小 化 ， 应 该 限制 以 下 几 个 部 分 的 内 存 使 用 量 。 

堆 
堆 是 最 大 的 一 块 内 存 ， 尽 管 有 些 出 人 意料 ， 它 可 能 只 占 总 内 存 占 用 的 50% 到 60%。 可 
以 将 堆 的 最 大 值 设置 为 一 个 较 小 的 值 (或 者 设置 GC 调 优 参数 ， 比 如 控制 堆 不 会 被 完全 
占 满 )， 以 此 限制 程序 的 内 存 占 用 。 

线程 栈 
线程 栈 非 常 大 ， 特 别 是 对 64 位 JVM 而 言 。 第 9 章 会 探讨 限制 线程 栈 消 耗 的 内 存量 的 不 
同方 式 。 

代码 缓存 
代码 缓存 使 用 原生 内 存 来 保存 编译 后 的 代码 。 第 4 章 讨 论 过 ， 代 码 缓存 也 可 以 调 优 (不 
过 ， 如 果 因 为 空间 的 限制 而 导致 所 有 代码 无 法 编译 ， 对 性 能 也 会 有 不 利 影 响 ) 。 


直接 字 节 缓冲 区 
将 在 8.1.3 节 讨 论 。 


8.1.3 原生 NIO 缓 冲 区 


开发 者 可 以 通过 JNI 调 用 来 分 配 原生 内 存 ， 但 是 如 果 NIO 字 节 缓冲 区 是 通过 
allocateDirect() 方法 创建 的 ， 则 也 会 分 配 原生 内 存 。 从 性 能 的 角度 看 ， 原 生字 节 缓 冲 区 
非常 重要 ， 因 为 它们 支持 原生 代码 和 Java 代码 在 不 复制 的 情况 下 共享 数据 。 最 常见 的 例子 
是 用 于 文件 系统 和 套 接 字 (socket) 操作 的 缓冲 区 。 把 数据 写 入 一 个 原生 NIO 缓冲 区 ， 然 
后 再 发 送 给 通道 (channel， 比 如 文件 或 套 接 字 )， 不 需要 在 JVM 和 用 于 传输 数据 的 C 库 
间 复 制 数据 。 如 果 使 用 的 是 堆 字 节 缓 冲 区 ，JVM 则 必须 复制 该 缓冲 区 的 内 容 。 


调用 allocateDirect() 方法 非常 郧 贵 ， 所 以 应 该 尽 可 能 重用 直接 字 市 缓冲 区 。 理 想 的 情况 
是 ， 线 程 是 独立 的 ， 而 且 每 个 线程 持 有 一 个 直接 字 市 缓冲 区 作为 线程 局 部 变量 。 如 果 有 很 
多 线程 需要 大 小 不 同 的 缓冲 区 ， 有 时 可 能 会 消耗 过 多 原生 内 存 ， 因 为 每 个 线程 的 缓冲 区 最 
终 可 能 会 达到 最 大 值 。 对 于 这 种 情况 ， 或 者 应 用 的 设计 不 适合 使 用 线程 局 部 缓冲 区 时 ， 直 
接 字 市 缓冲 区 的 对 象 池 可 能 更 有 用 。 
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字 市 缓冲 区 也 可 以 切割 管理 。 应 用 可 以 分 配 一 个 非常 大 的 直接 字 市 缓冲 区 ， 然 后 每 个 请 求 
使 用 ByteBuffer 类 的 slice() 方 法 从 中 分 配 一 部 分 。 如 果 不 能 保证 每 次 分 配 相同 的 大 小 ， 
这 种 方案 就 很 难处 理 : 就 像 在 分 配 和 释放 不 同 大 小 的 对 象 时 堆 会 呈现 出 碎片 化 一 样 ， 最 初 
分 配 的 这 个 字 节 缓冲 区 也 会 变 得 雄 片 化 。 然 而 与 堆 不 同 的 是 ， 字 市 缓冲 区 的 不 同 片段 是 无 
法 压缩 的 ， 所 以 只 有 当 所 有 片段 大 小 都 相同 时 ， 这 种 解决 方案 才 好 用 。 

从 调 优 的 角度 看 ， 有 一 点 需要 知道 ， 即 不 管 使 用 上 述 哪 种 编程 模型 ， 应 用 可 以 分 配 的 直接 
字 市 缓冲 区 的 量 都 可 以 通过 JVM 加 以 限制 。 直 接 字 市 缓冲 区 所 分 配 的 内 存 总 量 ， 可 以 通 
过 设置 -XX:MaxDirectMemorysize=N 标 志 来 指定 。 从 Java 7 开始 ， 这 个 标志 的 默认 值 为 0， 
这 意味 着 没有 限制 (当然 还 是 要 受制 于 地 址 空间 大 小 ， 以 及 操作 系统 对 进程 的 各 种 限制 )。 
可 以 使 用 这 个 标志 来 限制 应 用 中 直接 字 市 缓冲 区 的 使 用 (还 可 以 利用 它 实现 与 Java 以 前 版 
本 的 兼容 ， 早 期 版 本 中 ， 这 个 限制 是 64 MB )。 


快速 小 结 

1. JVM 总 的 内 存 占 用 对 性 能 影响 很 大 ， 特 别 是 当 机 器 上 的 物理 内 存 有 限时 。 
在 做 性 能 测试 时 ， 内 存 占 用 通常 应 该 是 要 监控 的 一 个 方面 。 

2， 从 调 优 角度 看 ， 要 控制 JVM 的 内 存 占用 ， 可 以 限制 用 于 直接 字 节 缓冲 
区 、 线 程 栈 和 代码 缓存 的 原生 内 存 (以 及 堆 ) 的 使 用 量 。 




































































8.1.4 原生 内 存 跟踪 

从 Java 8 开始 ， 借 助 -XX:NativeMemoryTracking=off| summary|detail 这 个 选项 ，JVM 支持 
我 们 一 帘 它 是 如 何 分 配 原生 内 存 的。 原生 内 存 跟踪 (Native Memory Tracking，NMT) 默 
认 是 关闭 的 (off 模式 )。 如 果 开 启 了 概要 模式 (summary) 或 详情 模式 (detail)， 可 以 随 
时 通过 jcmd 命令 获得 原生 内 存 的 信息 : 


% jcmd process_id VM.native_memory summary 


如 果 JVM 是 使 用 -XX:+PrintNMTStatistics 参数 (默认 为 false) 启动 的 ， 它 会 在 程序 退 
出 时 打印 原生 内 存 分 配 信息 。 如 下 是 一 个 初始 堆 大 小 为 512 MB ， 最 大 为 4 GB 的 JVM 的 
概要 输出 : 


Native Memory Tracking: 











Total: reserved=4787210KB, committed=1857677KB 
尽管 JVM 保留 了 总 计 4.7 GB 的 内 存 ， 但 使 用 量 远 小 于 这 个 值 一 一 只 有 1.8 GB。 这 非常 典 
型 (之 所 以 没有 特别 注意 OS 工具 中 显示 的 进程 虚拟 大 小 ， 原 因 之 一 是 它 反 映 的 只 是 保留 
内 存 )。 
内 存 使 用 情况 可 以 分 解 成 如 下 几 个 部 分 : 


Java Heap (reserved=4296704KB, committed=1470428KB) 
(mmap: reserved=4296704KB, committed=1470428KB) 


不 出 所 料 ， 堆 本 身 是 4 GB 保留 内 存 中 最 大 的 一 部 分 。 但 是 堆 的 动态 大 小 意味 着 它 仅 增长 
到 了 1.4GB。 
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- Class (reserved=65817KB, committed=60065KB) 
(classes #19378) 
(malloc=6425KB, #14245) 
(mmap: reserved=59392KB, committed=53640KB) 


这 是 用 于 保存 类 的 元 数据 的 原生 内 存 。 再 次 提醒 ， 与 实际 用 于 保存 程序 中 的 19 378 个 类 而 
占用 的 内 存 相 比 ，JVM 保留 的 内 存 要 更 多 。 
- Thread (reserved=84455KB, committed=84455KB) 
(thread #77) 
(stack: reserved=79156KB, committed=79156KB) 


(malloc=243KB, #314) 
(arena=5056KB, #154) 


77 个 线程 栈 ， 每 个 分 配 了 大 约 1 MB 的 空间 。 


- Code (reserved=102581KB, committed=15221KB) 
(malloc=2741KB, #4520) 
(mmap: reserved=99840KB, committed=12480KB) 


这 是 JIT 的 代码 缓存 : 19 378 个 类 并 不 是 非常 多 ， 所 以 提交 的 代码 缓存 只 是 很 小 的 一 部 分 。 


- GC (reserved=183268KB, committed=173156KB) 
(malloc=5768KB, #110) 
(mmap: reserved=177500KB, committed=167388KB) 


这 是 GC 算法 的 处 理 所 使 用 的 一 些 堆 外 空间 。 


- Compiler (reserved=162KB, committed=162KB) 
(malloc=63KB, #229) 
(arena=99KB, #3) 


类 似 地 ， 这 个 区 域 是 供 编 译 器 自身 操作 使 用 的 ， 这 与 生成 的 代码 放 在 代码 缓存 中 是 不 同 的 。 


- Symbol (reserved=12093KB, committed=12093KB) 
(malloc=10039KB, #110773) 
(arena=2054KB, #1) 


保留 字符 串 (Interned String) 的 引用 与 符号 表 引 用 放 在 这 里 。 


- Memory Tracking (reserved=22466KB, committed=22466KB) 
(malloc=22466KB, #1872) 


NMT 本 身 的 操作 也 需要 一 些 空间 。 



































详细 的 内 存 跟踪 信息 
如 果 JVM 是 用 -XX:NativeMemoryTracking=detail 启 动 的 ，jcmd (最 后 加 上 一 个 
detail 参数 ) 就 会 提供 原生 内 存 分 配 相 关 的 非常 详细 的 信息 。 其 中 会 包括 整个 内 存 空 
间 的 一 个 上 映射， 包括 像 这 样 的 一 些 行 : 
0x00000006c09000000 - Ox00000007c0000000] reserved 4194304KB for Java Heap 


from [ReservedSpace::initialize(unsigned long, unsigned long, 
bool, char*, unsigned long, bool)+0xc2] 











[Ox00000006c0000000 - 0x00000006fb100000] committed 967680KB 
from [PSVirtualSpace: :expand_by(unsigned long)+0x53] 
[0x000000076ab00000 - 0x00000007c0000000] committed 1397760KB 
from [PSVirtualSpace: :expand_by(unsigned long)+0x53] 


4 GB 的 堆 空间 是 在 initialize() 函数 中 保留 的 ， 两 次 分 配 实际 是 在 expand_by() 函数 
中 进行 的 。 

对 于 整个 进程 空间 而 言 ， 这 类 信息 是 重复 的 。 对 于 JVM 工程 师 ， 它 能 提供 很 有 意义 的 
线索 ， 但 是 对 于 我 们 这 类 开发 人 员 ， 概 要 信息 就 够 用 了 。 











NMT 提供 了 两 类 关键 信息 : 
总 提交 大 小 
进程 的 总 提交 大 小 ， 是 该 进程 将 要 消耗 的 实际 物理 内 存量 。 这 个 值 和 应 用 的 RSS (或 工 
芷 集 ) 很 接近 ， 但 是 操作 系统 提供 的 那些 测量 值 存 在 一 个 问题 ， 即 有 些 内 存 虽 然 已 经 提 
交 ， 但 是 其 页 面 被 置换 出 去 了 (paged out) ，RSS 是 不 会 将 其 计算 在 内 的 。 实 际 上 ， 如 
果 进 程 的 RSS 小 于 已 提交 内 存 ， 就 通常 表明 操作 系统 很 难 将 JVM 的 所 有 信息 都 放 到 物 
理 内 存 中 。 
每 部 分 的 提交 大 小 
当 需 要 调 优 堆 、 代 码 缓存 或 元 空间 等 不 同 部 分 的 最 大 值 时 ， 了 解 此 类 内 存在 JVM 中 实 
际 使 用 了 多 少 非常 有 用 。 超 量 分 配 通 常 只 会 影响 内 存 的 保留 ， 不 过 有 些 情 况 下 ， 保 留 内 
存 也 很 重要 ， 而 NMT 可 以 帮助 我 们 跟踪 那些 最 大 值 可 以 再 缩减 的 情况 。 
NMT 跟 踪 
NMT 也 支持 跟踪 内 存 分 配 随时 间 的 变化 情况 。 如 果 JVM 在 启动 时 启用 了 NMT， 可 以 使 
用 如 下 命令 确定 内 存 的 基线 使 用 情况 : 
% jcmd process_id VM.native_ memory baseline 
这 样 ，JVM 就 会 把 当时 的 内 存 分 配 情况 标记 下 来 ， 作 为 基线 。 利 用 如 下 命令 ， 可 以 比较 
JVM 当前 的 内 存 分 配 情况 与 基线 的 差别 : 


% jcmd process_id VM.native_memory Summary .diff 
Native Memory Tracking: 


































































































Total: reserved=5896078KB -3655KB, committed=2358357KB -448047KB 


Java Heap (reserved=4194304KB, committed=1920512KB -444927KB) 
(mmap: reserved=4194304KB, committed=1920512KB -444927KB) 


在 这 个 例子 中 ,JVM 保留 了 5.8 GB 的 内 存 ， 正 在 使 用 的 是 2.3 GB。 与 基线 相 比 ， 提 交 的 
内 存 减少 了 448 MB。 类 似 地 ， 可 以 看 出 提交 的 堆 内 存 减少 了 444 MB (可 以 观察 其 余 的 输 
出 内 容 ， 来 确定 另外 4 MB 内 存 是 哪 部 分 区 域 减少 的 )。 


在 检查 JVM 的 内 存 占 用 随时 间 的 变化 情况 时 ， 这 一 技术 非常 有 用 。 
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快速 小 结 

1. 在 Java 8g 中 ， 原 生 内 存 跟踪 (NMT) 提供 了 JVM 所 使 用 的 原生 内 存 的 详 
细 信 息 。 从 操作 系统 的 角度 看 ， 其 中 包含 JVM 堆 (对 OS 而 言 ， 堆 也 是 
原生 内 存 的 一 部 分 )。 

2. 对 大 多 数 分 析 而 言 ，NMT 的 概要 模式 足够 了 。 它 支持 我 们 确定 JVM 提 
交 了 多 少 内 存 (以 及 这 些 内 存 用 于 干什么 了 )。 


8.2 ”针对 不 同 操作 系统 优化 JVM 


JVM 可 以 利用 一 些 调 优 选项 来 优化 操作 系统 内 存 的 使 用 。 


8.2.1 大 页 


一 般 用 “页 ”这 个 术语 来 讨论 内 存 分 配 和 交换 。 页 是 操作 系统 管理 物理 内 存 的 一 个 单元 ， 
还 是 操作 系统 分 配 内 存 的 最 小 单元 ， 要 分 配 1 个 字 节 ， 操 作 系 统一 定 会 分 配 1 个 整 页 。 程 
序 中 后 续 的 内 存 分 配 都 会 从 这 个 页 获取 ， 直 到 分 配 完毕 ， 这 时 就 会 分 配 一 个 新 页 。 


操作 系统 分 配 的 页 数 一 般 要 比 物理 内 存 能 容纳 的 页 数 多 很 多 ， 这 就 是 存在 分 页 机 制 的 原 
: 地 址 空间 中 的 页 会 被 移入 或 移出 交换 空间 (或 其 他 存储 ， 跟 页 中 包含 的 内 容 有 关 ) 。 
这 意味 着 ， 这 些 页 和 它们 在 计算 机 物理 内 存 中 所 占 的 位 置 间 存 在 某 种 映射 。 这 些 映射 有 两 
种 不 同 的 处 理 方式 。 所 有 的 页 映射 都 保存 在 一 个 全 局 页 表 中 (操作 系统 可 以 扫描 这 个 表 ， 
找到 特定 的 映射 )， 最 常用 的 映射 保存 在 TLB (Translation Lookaside Buffers) 中 。TLB 保 
存在 一 个 快速 的 缓存 中 ， 所 以 通过 TLB 表 项 访问 页 要 比 通过 页 表 访 问 快 得 多 。 


机 器 中 TLB 表 项 的 数目 有 限 ，TLB 会 用 作 LRU (Least Recently Used， 最 近 最 少 使 用 的 ) 

缓存 ， 因 此 最 大 化 TLB 表 项 的 命中 率 就 变 得 非常 重要 。 因 为 每 个 表 项 表示 一 个 内 存 页 ， 所 

以 增 大 应 用 所 使 用 的 页 的 大 小 一 般 会 有 所 帮助 。 如 果 每 个 页 能 表示 更 多 内 存 ， 则 用 更 少 的 

TLB 表 项 就 能 涵盖 整个 程序 的 内 存 ， 这 样 当 需 要 某 个 页 时 ， 在 TLB 中 找到 的 可 能 性 更 大 。 
般 而 言 ， 任 何 程序 都 是 这 样 。 具 体 到 像 Java 应 用 服务 器 或 堆 为 中 等 大 小 的 其 他 Java 程 

序 ， 也 是 如 此 。 

Java 支持 -XX:+UseLargePages 选项 。 其 默认 值 跟 有 具体 的 操作 系统 配置 有 关 。 在 Windows 

上 ， 必 须 在 操作 系统 中 启用 大 页 。 用 Windows 的 术语 来 讲 ， 这 意味 着 支持 各 个 用 户 锁 定 内 

存 页 (lock pages into memory) , 这 在 Windows 的 服务 器 版 本 中 才能 实现 。 在 Windows 操 

作 系 统 上 ， 除 非 显 式 启 用 了 UseLargePages， 否 则 默认 使 用 常规 页 。 

在 Linux 上 ，UseLargePages 标志 默认 不 会 启用 ， 要 支持 大 页 ， 也 要 配置 一 下 操作 系统 。 

在 Solaris 上 ， 不 需要 什么 操作 系统 方面 的 配置 ， 默 认 启用 大 页 。 

如 果 在 不 支持 大 页 的 系统 上 启用 了 UseLargePages 标志 , JVM 不 会 给 出 警告 ， 它 会 使 用 常 

规 页 。 如 果 系 统 支持 大 页 ， 但 是 没有 大 页 可 用 (可 能 因为 所 有 的 大 页 都 被 用 了 ， 也 可 能 

为 操作 系统 配置 错误 ) ， 这 时 JVM 会 打印 警告 。 




















































































































1. Linux 大 页 

在 Linux 上 ， 大 页 的 配置 会 随 发 行 版 的 不 同 而 有 所 不 同 ， 想 要 获得 最 准确 的 说 明 ， 请 参考 

所 用 发 行 版 的 文档 。 一 般 而 言 ， 可 以 分 为 如 下 5 个 步骤 。 

() 确定 内 核 支 持 哪 些 大 页 大 小 。 大 页 大 小 与 计算 机 的 处 理 器 和 内 核 启 动 参数 有 关 ， 不 过 最 
常见 的 是 2MB。 











# grep Hugepagesize /proc/meminfo 


Hugepagesize: 2048 kB 
(2) 计算 需要 多 少 大 页 。 如 果 JVM 会 分 配 4 GB 大 小 的 堆 ， 系 统 支持 2 MB 的 大 页 ， 则 这 个 
堆 就 需要 2048 个 大 页 。 系 统 可 以 使 用 的 大 页 的 数目 是 在 Linux 内 核 中 全 局 定义 的 ， 因 
































此 要 对 将 在 该 系统 中 运行 的 所 有 JVM (以 及 其 他 任何 会 使 用 大 页 的 程序 ) 重复 这 个 过 
程 。 考 虑 到 非 堆 部 分 也 有 可 能 会 使 用 大 页 ， 所 以 应 多 估算 10% (这 样 ， 这 个 例子 要 使 
用 2200 个 大 页 )。 
(3) 将 这 个 值 写 到 操作 系统 中 〈 以 便 立 即 生效 ) : 
# echo 2200 > /proc/sys/vm/nr_hugepages 
(4) 将 该 值 保存 到 /etc/sysctl.conf 中 ， 这 样 系统 重启 后 这 个 值 也 会 保存 下 来 : 
sys.nr_hugepages=2200 
(3) 在 很 多 Linux 版 本 上 ， 一 个 用 户 可 以 分 配 的 内 存 页 数量 可 能 是 有 限 的 。 编 辑 /etc/ 


security/limits.conf 文件 ， 为 运行 JVM 的 用 户 (例如 这 个 例子 中 的 appuser) 添加 
memlock 条 目 : 
































appuser soft memLock 4613734400 
appuser hard memLock 4613734400 


在 修改 了 limits.conf 文件 之 后 ， 用 户 必须 重新 登录 ， 这 个 值 才 会 生效 。 重 启 之 后 ，JVM 就 
应 该 能 够 分 配 必 要 的 大 页 了 。 要 验证 其 效果 ， 运 行 如 下 命令 : 

# java -Xms4G -Xmx4G -XX:+UseLargePages -version 

java version"1.7.0_17" 


Java(TM) SE Runtime Environment (build 1.7.0_17-b02) 
Java HotSpot(TM) 64-Bit Server VM (build 23.7-b01, mixed mode) 


若 这 个 命令 成 功 完成 ， 说 明 大 页 已 经 正确 配置 。 如 果 大 页 内 存 配置 不 正确 ， 则 会 出 现 如 下 








[edl 








Java HotSpot(TM) 64-Bit Server VM warning: 

Failed to reserve shared memory (errno = 22). 
2. Linux 透 明 大 页 
Linux 内 核 从 2.6.32 版 本 开始 支持 透明 大 页 ， 这 种 机 制 不 再 需要 上 述 配置 。 不 过 仍然 需 
要 为 Java 开启 透明 大 页 ， 这 可 以 通过 修改 /sys/kernel/mm/transparent_hugepage/enabled 
来 实现 : 
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# cat /sys/kernel/mm/transparent_hugepage/enabled 

always [madvise] never 

# echo always > /sys/kernel/mm/transparent_hugepage/enabled 
# cat /sys/kernel/mm/transparent_hugepage/enabled 

[always] madvise never 


该 文件 中 的 默认 值 〈 见 第 一 条 命令 的 输出 ) 是 madvise。 只 有 明确 告诉 内 核 会 使 用 大 页 的 
程序 才能 使 用 大 页 。 因 为 无 法 通过 JVM 做 到 这 一 点 ， 所 以 要 将 默认 值 设置 为 aways ( 通 
过 第 二 条 命令 )。 注 意 ， 这 会 影响 该 系统 上 的 JVM 和 其 他 任何 程序 ， 它 们 运行 的 时 候 都 会 
使 用 大 页 。 


如 果 启 用 了 透明 大 页 ， 就 不 要 指定 UseLargePages 标志 。 如 果 显 式 地 设置 了 该 标志 ，JVM 
会 使 用 传统 的 大 页 ， 如 果 没 有 配置 好 传统 的 大 页 ， 则 使 用 标准 页 。 如 果 该 标志 设置 为 默认 
值 ， 则 JVM 会 使 用 透明 大 页 (如 果 已 经 配置 ) 。 


3. Windows 大 页 
只 有 服务 器 版 的 Windows 才 支 持 大 页 。Windows 7 上 的 具体 操作 如 下 ， 不 同 版 本 间 会 有 一 


些 差 别 。 


(1) 启动 Microsoft 管理 控制 台 (Microsoft Management Center)。 点 击 开 始 菜 单 ， 在 搜索 框 
中 输入 mmc。 

(2) 如 果 左 侧 的 面板 中 没有 出 现 本 地 计算 机 策略 图 标 ， 则 从 “文件 ”菜单 中 选择 “添加 / 
删除 管理 单元 ”， 添 加 “组 策略 对 象 编辑 器 ” 。 如 果 找 不 到 该 选项 ， 就 说 明 当 前 使 用 的 
Windows 版 本 不 支持 大 页 。 
(3) 在 左 侧 面板 中 ， 展 开本 地 计算 机 策略 一 计算 机 配置 一 Windows 配置 一 安全 配置 一 本 地 
策略 ， 点 击 “ 用 户 权 限 分 配 ” 文 件 夹 。 

(4) 在 右 侧 面板 中 ， 双 击 “ 锁 定 内 存 页 ”。 

(5) 在 弹出 菜单 中 ， 添 加 用 户 或 组 。 














































































































(0) 点 击 确定 。 
(7) 退出 Microsoft 管理 控制 台 。 
(8) 重新 启动 。 














重启 之 后 ，JVM 就 应 该 能 够 分 配 必要 的 大 页 了 。 要 验证 其 效果 ， 运 行 如 下 命令 : 


# java -Xms4G -Xmx4G -XX:+UseLargePages -version 

java version "1.7.0_17" 

Java(TM) SE Runtime Environment (build 1.7.0_17-b02) 

Java HotSpot(TM) 64-Bit Server VM (build 23.7-b01, mixed mode) 


如 果 命 令 像 上 面 这 样 成 功 完 成 ， 大 页 就 设置 正确 了 。 如 果 配 置 不 正确 ， 会 出 现 如 下 警告 : 


Java HotSpot(TM) Server VM warning: JVM cannot use large page memory 
because it does not have enough privilege to lock pages in memory. 


请 记 住 ， 在 不 支持 大 页 的 Windows 系统 (比如 “home” 版 本 ) 上 ， 这 条 命令 不 会 
打印 错误 : 不 管 命令 行 设置 的 是 什么 , JVM 一 旦 发 现 操作 系统 不 支持 大 页 ， 就 会 将 
UseLargePages 标志 设置 为 false。 

















4. 大 页 的 大 小 
在 大 多 数 Linux 和 Windows 系统 上 ， 操 作 系 统 会 使 用 2 MB 大 小 的 大 页 ， 但 这 个 数字 会 随 
操作 系统 的 配置 而 变化 。 


严格 来 讲 ， 处 理 器 定义 了 可 能 的 页 大 小 。 大 部 分 当前 的 Intel 和 SPARC 处 理 器 支持 很 多 可 
能 的 页 大 小 : 4KB、8 KB、2 MB 和 256 MB， 等 等 。 然 而 ， 实 际 可 以 分 配 多 大 的 页 是 由 操 
作 系 统 决 定 的 。 在 Solaris 上 ， 处 理 器 所 支持 的 各 种 页 大 小 均 能 支持 ，JVM 可 以 自由 分 配 
任意 大 小 的 页 。 在 Linux 内 核 上 (至少 在 本 书写 作 时 )， 可 以 在 内 核 启动 时 指定 使 用 处 理 器 
所 文 持 哪 种 页 大 小 ， 不 过 这 就 是 应 用 实际 可 以 分 配 的 唯一 的 大 页 大 小 。 在 Windows 上 , 大 
页 固定 为 2MB (同样 ， 本 书写 作 时 是 这 样 )。 

为 支持 Solaris，Java 支持 通过 -XX:LargePageSizeInBytes=N 标 志 来 设置 要 分 配 的 大 页 大 小 。 
该 标志 默认 值 为 0， 这 意味 着 JVM 应 该 选择 特定 于 处 理 器 的 大 页 大 小 。 


这 个 标志 在 各 种 平台 上 均 可 设置 ， 而 且 JVM 不 会 明示 是 否 使 用 了 指定 的 页 大 小 。 如 果 在 某 个 
Linux 系统 上 分 配 一 个 非常 大 的 堆 ， 你 可 能 认为 应 该 设置 -XX:LargePageSizeInBytes=256M， 
以 便 TLB 命中 率 达到 最 佳 。 可 以 这 么 做 ， 而 且 JVM 不 会 抱怨 什么 ， 但 它 仍然 只 会 分 配 2 
MB 大 小 (或 者 是 指定 内 核 支持 的 某 个 页 大 小 ) 的 页 。 事 实 上 ， 指 定 根 本 没有 任何 意义 的 
页 大 小 都 是 可 能 的 ， 比 如 -XX:LargePageSizeInBytes=11111。 因 为 这 个 大 小 是 不 可 用 的 ， 
JVM 会 直接 选择 该 平台 的 默认 页 大 小 。 


因此 ， 至 少 就 目前 而 言 ， 这 个 标志 实际 只 有 在 Solaris 上 才 有 用 。 在 Solaris 上 ， 为 了 使 用 
更 大 的 页 ， 可 以 选择 比 默认 值 (在 SPARC 处 理 器 上 默认 是 4 MB) 更 大 的 页 大 小 。 在 配备 
了 大 量 内 存 的 系统 上 ， 这 会 增加 能 够 容纳 进 TLB 缓存 的 页 数 ， 提 高 性 能 。 要 查看 Solaris 
上 可 用 的 页 大 小 ， 可 以 使 用 pagesize -a 命令 。 


快速 小 结 
1. 使 用 大 页 通常 可 以 明显 提升 应 用 的 速度 。 
2. 在 大 多 数 操作 系统 上 ， 必 须 显 式 开启 大 页 支持 。 



























































8.2.2 ”压缩 的 00p 


第 4 章 曾 提 到 ， 对 于 同一 任务 ，32 位 JVM 的 性 能 要 比 64 位 JVM 的 好 5%~20%。 当 然 ， 
这 要 假定 应 用 可 以 容纳 进 32 位 的 进程 空间 中 ， 这 限定 了 堆 要 小 于 4GB。( 在 实践 中 ， 这 往 
往 意 味 着 堆 要 小 于 3.5 GB， 因 为 JVM 还 需要 一 些 原生 内 存 空间 ， 而且 在 茶 些 Windows 版 
本 上 ， 限制 是 3 GB。) 


性 能 差距 是 64 位 的 对 象 引 用 导致 的 。 主 要 原因 是 ， 在 堆 中 ，32 位 的 对 象 引 用 占 4 字 节 ， 
而 64 位 的 对 象 引用 占 8 字 节 ， 是 前 者 的 2 倍 。 这 就 致使 需要 更 多 GC 周期 ， 因 为 堆 中 留 给 
其 他 数据 的 空间 少 了 。 

JVM 可 以 使 用 压缩 的 oop 来 弥补 额外 的 内 存 消耗 。“oop” 代 表 的 是 “ordinary object 
pointer”， 即 普通 对 象 指针 ，JVM 将 其 用 作对 象 引用 的 句柄 。 在 oop 只 有 32 位 长 时 ， 只 能 
引用 4 GB 内 存 (22)， 这 就 是 为 什么 32 位 JVM 有 4 GB 堆 空 间 限制 的 原因 。( 同 样 的 限 
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制 也 适用 于 操作 系统 层面 ，32 位 的 进程 的 地 址 空间 限制 为 4 GB。) 而 在 oop 为 64 位 长 时 ， 
可 以 引用 的 内 存 就 是 TB 级 了 。 


有 一 个 中 间 方案 : 如 果 有 35 位 的 oop， 又 会 怎么 样 呢 ? 这 样 的 指针 可 以 引用 32 GB 的 内 存 
(2”) ,在 堆 中 占 的 空间 也 比 64 位 的 引用 少 。 问 题 是 没有 35 位 长 的 寄存 器 可 以 存放 这 样 的 
引用 。 不 过 JVM 可 以 假设 引用 的 最 后 3 位 都 是 0。 现 在， 就 不 是 所 有 的 引用 都 能 保存 在 堆 
中 了 。 当 应 用 被 存 入 64 位 的 寄存 器 时 ，JVM 可 以 将 其 左 移 3 位 (末尾 添加 3 个 0)。 而 当 
从 寄存 器 读 出 时 ，JVM 又 可 以 右 移 3 位 ， 丢弃 末尾 的 0。 


这 样 JVM 就 有 了 可 以 引用 32 GB 内 存 的 指针 ， 而 且 每 个 指针 在 堆 中 只 占用 32 位 。 然 而 这 

意味 着 ， 对 于 不 能 被 8 整除 的 地 址 上 的 任何 一 个 对 象 ，JVM 都 无 法 访问 ， 因 为 从 压缩 的 
oop 得 到 的 任何 地 址 均 以 3 个 0 结尾 。 第 一 个 可 能 的 oop 是 0x1， 移 位 之 后 是 0x8。 下 一 个 
oop 是 0x2， 在 移 位 后 变 成 了 0x10 (16)。 所 以 对 象 必须 位 于 8 字 节 的 边界 上 。 


其 实在 JVM 中 (不管 是 32 位 的 还 是 64 位 的 ) ， 对 象 已 经 按 8 字 节 边界 对 齐 了 ， 对 于 大 部 
分 处 理 器 ， 这 种 对 齐 方案 都 是 最 优 的 。 所 以 使 用 压缩 的 oop 并 不 会 损失 什么 。 如 果 JVM 
中 的 第 一 个 对 象 保存 到 位 置 0， 占 用 57 字 节 ， 那 下 一 个 对 象 就 要 保存 到 位 置 64， 浪 费 了 7 
字 节 ， 无 法 再 分 配 。 这 种 内 存 取 侈 是 值得 的 〈 而 且 不 管 是 否 使 用 压缩 的 oop， 都 是 这 样 )， 
因为 在 8 字 节 对 齐 的 位 置 ， 对 象 可 以 更 快 地 访问 。 

不 过 这 也 是 为 什么 JVM 没有 尝试 模仿 36 位 引用 (可 以 访问 64 GB 的 内 存 ) 的 原因 。 在 那 
种 情况 下 ， 对 象 就 要 在 16 字 节 的 边界 上 对 齐 ， 在 堆 中 保存 压缩 指针 所 节约 的 成 本 ， 就 被 
为 对 齐 对 象 而 浪费 的 内 存 抵 消 了 。 

这 里 有 两 点 启示 。 第 一 ， 对 于 大 小 在 4 GB 和 32 GB 之 间 的 堆 ， 应 该 使 用 压缩 的 oop。 压 
缩 的 oop 可 以 使 用 -XX:+UseCompressed0ops 标志 启用 ， 在 Java 7 和 更 新 的 版 本 中 ， 只 要 堆 
的 最 大 值 小 于 32 GB ， 压 缩 的 oop 默认 就 是 启用 的 。( 在 7.2.1 节 我 们 曾 指出 ， 默 认 情 况 下 ， 
在 堆 空 间 为 32 GB 的 64 位 JVM 上 ， 对 象 引 用 的 大 小 为 4 个 字 节 ， 这 是 因为 压缩 oop 默认 
就 是 启用 的 。) 

第 二 ， 使 用 了 31 GB 的 堆 ， 并 启用 压缩 oop 的 程序 ， 通 常 要 快 于 使 用 了 33 GB 的 堆 的 程 
序 。 尽 管 后 者 的 堆 更 大 ， 但 是 堆 中 的 指针 要 占据 额外 的 空间 ， 这 意味 着 更 大 的 堆 执行 GC 
的 频率 会 更 频繁 ， 性 能 也 更 差 。 


因此 ， 最 好 是 使 用 小 于 32 GB 的 堆 空 间 ， 或 者 使 用 比 32 GB 至 少 多 铬 干 GB 的 堆 空间 。 如 
果 有 额外 的 空间 来 弥补 非 压 缩 引 用 所 使 用 的 空间 ，GC 周期 数 就 会 有 所 减少 。 但 是 增加 多 
少 内 存 可 以 改善 非 压缩 oop 对 GC 的 影响 ， 并 没有 硬性 的 规则 。 不 过 平均 而 言 ， 对 象 引用 
会 占用 20% 的 堆 空 间 , 所 以 38 GB 是 个 不 错 的 起 点 。 


快速 小 结 

1， 压缩 的 oop 会 在 最 有 用 的 时 候 默 认 开 启 。 

2. 使 用 了 压缩 oop 的 31 GB 的 堆 ， 与 稍微 大 一 些 、 但 因为 堆 太 大 而 无 法 使 
用 压缩 oop 的 堆 相 比 ， 性 能 通常 要 好 一 些 。 


































































































8.3 小 结 


尽管 Java 的 堆 是 最 受 关注 的 内 存 区 域 ,但 整个 JVM 的 内 存 占 用 对 性 能 至 关 重 要 ， 特 别 是 
与 操作 系统 相关 的 部 分 。 可 以 利用 本 章 所 探讨 的 工具 跟踪 JVM 内 存 占 用 随时 间 的 变化 情 


况 ( 关 键 在 于 关注 JVM 的 提交 内 存 ， 而 非 保 留 内 存 )。 





行 的， 特别 是 堆 特别 大 的 JVM 而 言 ， 使 用 大 页 几乎 总 是 有 好 处 的 。 


也 可 以 通过 调整 JVM 使 用 操作 系统 内 存 (特别 是 大 页 ) 的 方式 来 改进 性 能 。 对 于 长 期 运 
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第 9 章 


线程 与 同步 的 性 能 





从 刚 问世 起 ，Java 的 部 分 魅力 就 来 自 其 多 线程 。 即 便 在 多 核 和 多 CPU 系统 司空 见 惯 之 前 ， 
能 够 轻松 编写 多 线程 程序 也 是 Java 的 一 个 标志 性 特征 。 


方面 的 吸引 力 显而易见 : 如 果 有 两 个 CPU 可 用 ， 那 么 一 个 应 用 能 够 完成 的 工作 

可 能 是 原来 的 2 倍 ， 或 者 是 以 快 工 倍 的 时 间 完 成 相同 的 工作 量 。 当 然 ， 这 是 在 假设 任务 
可 的 上 前 提 之 下 的 ， 因 为 Java 不 是 能 自动 找 出 算法 性 部 分 并 实现 并 行 化 
的 语言 。 幸 运 的 是 ， 今 日 所 见 之 计算 ， 往 往 是 离散 性 的 任务 : 服务 器 处 理 来 自 离散 的 客户 
端的 同步 请 求 ， 批 处 理 作 业 在 一 系列 数据 上 执行 相同 的 操作 ， 数 学 算法 可 以 分 节 成 多 个 组 
成 部 分 ， 诸 如 此 类 。 


本 章 探讨 的 主题 是 ， 如 何 挖掘 出 Java 线程 和 同步 设施 的 最 大 性 能 


9.1 线程 池 与 ThreadPooLExecutor 


在 Java 中 ， 线 程 可 以 使 用 定制 的 代码 来 管理 ， 应 用 也 可 以 利用 线程 地 。Java EE 应 用 服 
务 器 就 是 围绕 用 一 个 或 多 个 线程 池 处 理 请 求 这 一 概念 构建 的 :对 服务 器 上 Servlet 的 每 个 
调用 都 是 通过 池 中 的 线程 处 理 的 (也 有 可 能 不 同 )。 类 似 地 ， 其 他 应 用 可 以 使 用 Java 的 
ThreadPoolExecutor 并 行 执行 任务 。 


事实 上 ， 有 些 Java EE 应 用 服务 器 就 是 使 用 ThreadPoolExecutor 类 的 实例 来 管理 其 任务 的 ， 
尽管 有 些 应 用 服务 器 编写 了 自己 的 线程 池 ， 不 过 一 般 也 仅仅 是 因为 当时 Java API 中 还 没有 
加 入 ThreadPooLExecutor 类 而 已 。 不 过 在 这 些 情况 下 ， 线 程 池 的 实现 可 能 会 有 所 不 同 ， 但 
基本 概念 是 一 样 的 ， 本 节 都 会 予以 讨论 。 


在 使 用 线程 池 时 ， 有 一 个 因素 非常 关键 : 调节 线程 池 的 大 小 对 获得 最 好 的 性 能 至 关 重 要 。 
线程 池 的 性 能 会 随 线 程 池 大 小 这 一 基本 选择 而 有 所 不 同 ， 在 某 些 条 件 下 ， 线 程 池 过 大 对 性 
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能 也 有 很 大 的 不 利 影响 。 


所 有 线程 池 的 工作 方式 本 质 是 一 样 的 ， 有 一 个 队列 ， 任 务 被 提交 到 这 个 队列 中 。( 可 以 有 
不 止 一 个 队列 ， 概 念 是 一 样 的 。) 一 定数 量 的 线程 会 从 该 队列 中 取 任 务 ， 然 后 执行 。 任 务 
的 结果 可 以 发 回 客户 端 ( 比 如 应 用 服务 器 的 情况 下 )， 或 保存 到 数据 库 中 ， 或 保存 到 某 个 
内 部 数据 结构 中 ， 等 等 。 但 是 在 执行 完 任务 后 ， 这 个 线程 会 返回 任务 队列 ， 检 索 另 一 个 任 
务 并 执行 (如 果 没 有 更 多 任务 要 执行 ， 该 线程 会 等 待 下 一 个 任务 )。 

线程 池 有 最 小 线程 数 和 最 大 线程 数 。 池 中 会 有 最 小 数目 的 线程 随时 待命 ， 等 待 任务 指派 给 
它们 。 因 为 创建 线程 的 成 本 非常 高 郧 ， 这 样 可 以 提高 任务 提交 时 的 整体 性 能 : 已 有 的 线程 
会 拿 到 该 任务 并 处 理 。 另 一 方面 ， 线 程 需要 一 些 系 统 资 源 ， 包 括 栈 所 需 的 原生 内 存 ， 如 有 果 
空闲 线程 太 多 ， 就 会 消耗 本 来 可 以 分 配给 其 他 进程 的 资源 。 最 大 线程 数 还 是 一 个 必要 的 限 
流 阀 ， 防 止 一 次 执行 太 多 线程 。 

ThreadPoolExecutor 和 相关 的 类 将 最 小 线程 数 称 作 核 心 池 大 小 ， 大 部 分 应 用 服务 器 会 使 用 
类 似 minimum (最 小 值 ) 的 术语 (如 MinThreads)。 不 要 被 术语 所 迷惑 ， 它 们 是 同一 个 概 
念 。 然 而 ， 在 决定 何 时 调整 线程 池 大 小 的 方式 上 ，ThreadPoolExecutor 和 大 部 分 Java EE 
应 用 服务 器 有 些 重要 的 差别 。 本 节 后 面 会 探讨 这 些 差别 。 现 在 ， 考 虑 ThreadPoolExecutor 
的 最 简单 的 情况 ， 大 部 分 Java EE 应 用 服务 器 也 是 这 么 工作 的 : 如 果 有 个 任务 要 执行 ， 而 
所 有 的 并 发 线程 都 在 忙于 执行 男 一 个 任务 ， 就 启动 一 个 新 线程 (直到 创建 的 线程 达到 最 大 
线程 数 )。 


9.1.1 设置 最 大 线程 数 

先 来 设 定 最 大 线程 数 ， 对 于 给 定 硬 件 上 的 给 定 负载 ， 最 大 线程 数 设置 为 多 少 最 好 呢 ? 这 个 
问题 回答 起 来 并 不 简单 ， 它 取决 于 负载 特性 以 及 底层 硬件 。 特 别 是， 最 优 线程 数 还 与 每 个 
任务 阻塞 的 频率 有 关 。 


为 方便 讨论 ， 假 设 JVM 有 4 个 CPU 可 用 。 至 于 是 系统 只 有 4 个 CPU， 还 是 说 有 128 个 硬 
件 线程 但 我 们 只 想 利用 其 中 的 4 个 ， 并 不 重要 ， 因 为 我 们 的 目标 就 是 最 大 化 这 4 个 CPU 
的 利用 率 。 


很 明显 ， 最 大 线程 数 至 少 要 设置 为 4。 的 确 ， 除 了 处 理 这 些 任务 ，JVM 中 还 有 些 线程 要 做 
其 他 的 事 ， 但 是 它们 几乎 从 来 不 会 占用 一 个 完整 的 CPU。 如果 使 用 的 是 第 5 章 所 讨论 的 并 
发 垃圾 收集 器 ， 这 是 个 例外 ， 后 台 线 程 必 须 有 足够 的 CPU 来 运行 ， 以 免 在 处 理 堆 这 方面 
落后 。 


如 果 线 程 数 多 于 4， 会 有 帮助 吗 ? 这 时 就 要 看 负载 特性 了 。 考 虑 最 简单 的 情况 ， 假 定 任务 
都 是 计算 密集 型 的 : 没有 外 部 网 络 调用 (比如 不 会 访问 数据 库 )， 也 不 会 激烈 地 竞争 内 部 
锁 。 在 使 用 模 实 体 管理 器 (mock entity manager) 的 情况 下 ， 上 股价 历史 批 处 理 程序 就 是 一 
个 这 样 的 应 用 : 实体 上 的 数据 完全 可 以 并 行 计算 。 

下 面 就 使 用 线程 池 计 算 一 下 10 000 个 模 股票 实体 的 历史 ,假设 机 器 有 4 个 CPU， 使 用 不 
同 的 线程 数 测试 ， 具 体 的 性 能 数据 见 表 9-1。 如 果 池 中 只 有 1 个 线程 ,计算 数据 集 需要 
255.6 秒 ;， 用 4 个 线程 ， 则 只 需要 77 秒 。 如 果 线 程 数 超过 4 个 ， 随 着 线程 数 的 增加 ， 需 要 
的 时 间 会 稍 多 一 些 。 
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表 9-1: 计算 10 000 个 模 的 价格 历史 所 需 时 间 








线程 数 所 需 秒 数 。” ”与 基准 的 百分比 
1 255.6 100% 
2 134.8 52.7% 
4 77.0 30.1% 
8 81.7 31.9% 
15 85.6 33.5% 





如 果 应 用 中 的 任务 是 完全 并 行 的 ， 则 在 有 2 个 线程 时 ,“ 与 基准 的 百分比 ”这 列 为 50%; 
在 有 4 个 线程 时 ， 这 列 为 25%。 但 是 这 种 完全 线性 的 比例 不 可 能 出 现 ， 原 因 有 这 么 几 点 : 
如 果 没 有 其 他 线程 帮助 ， 这 些 线程 必须 自己 来 协同 ， 实 现 从 运行 队列 中 选取 任务 (一般 而 
言 ， 通 常会 有 更 多 同步 )。 到 了 使 用 4 个 线程 的 上 时候， 系统 会 100% 消耗 可 用 的 CPU， 尽 
管 机 器 可 能 没有 运行 其 他 用 户 级 的 应 用 ， 但 是 会 有 各 种 系统 级 的 进程 进来 ， 并 使 用 CPU， 
从 而 使 得 JVM 无 法 100% 地 使 用 所 有 CPU 周期 。 

尽管 如 此 ， 这 个 应 用 在 伸缩 性 方面 表现 还 不 错 ， 且 即使 池 中 的 线程 数 被 显著 高 估 ， 性 能 损 
失 也 比较 轻微 。 

不 过 在 其 他 情况 下 ， 人 性 能 损失 可 能 会 很 大 。 在 Servlet 版 的 股票 历史 计算 程序 中 ， 线 程 太 多 
的 话 ， 影 响 会 很 大 ， 如 表 9-2 所 示 。 应 用 服务 器 分 别 配置 成 不 同 的 线程 数 ， 有 一 个 负载 生 
成 器 会 癌 该 服务 器 发 送 20 个 同步 的 (simultaneous) 请 求 。 


表 9-2: 每 秒 通 过 Servlet 的 操作 
线程 数 每 秒 操作 数 与 基准 的 百分比 




































































4 77.43 100% 

8 "75:93 98.8% 
16 71.65 92.5% 
32 69.34 89.5% 


64 60.44 78.1% 











鉴于 应 用 服务 器 有 4 个 CPU 可 用 ,最 大 否 吐 量 可 以 通过 将 池 中 的 线程 数 设置 为 4 来 实现 。 
第 一 章 曾 探讨 过 ， 在 研究 性 能 问题 时 确定 瓶颈 在 哪儿 比较 重要 。 在 这 个 例子 中 ,瓶颈 很 明 
显 是 CPU: 4 个 线程 时 ，CPU 利用 率 为 100%。 不 过 加 入 更 多 线程 的 影响 其 实 很 小 ， 至 少 
当 线程 数 是 原来 的 8 倍 时 才 会 有 明显 的 差别 。 

如 果 瓶 颈 在 其 他 地 方 呢 ? 这 个 例子 有 点 不 同 寻常 ， 任 务 完全 是 CPU 密集 型 的 : 没有 JIO。 
一 般 来 说 ， 线 程 有 可 能 会 调用 数据 库 ， 或 者 把 输出 写 到 某 个 地 方 ， 莫 至 是 会 合 其 他 某 些 资 
源 。 在 那 种 情况 下 ,瓶颈 未 必 是 CPU， 而 可 能 是 外 部 资源 。 

对 于 此 类 情况 ， 添 加 线程 非常 有 害 。 虽 然 我 在 第 一 章 只 是 半 开 玩笑 地 说 过 数据 库 总 是 瓶 
颈 , 但 是 瓶颈 可 能 是 任何 外 部 资源 。 

仍 以 股票 Servlet 为 例 ， 我 们 把 目标 变 一 下 : 如 果 目 标 是 最 大 限度 地 利用 负载 生成 器 机 器 ， 
又 会 如 何 ， 是 简单 地 运行 一 个 多 线程 的 Java 程序 吗 ? 
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在 典型 的 用 法 中 ， 如 果 Servlet 应 用 运行 在 一 个 有 4 个 CPU 的 应 用 服务 器 上 ， 而 且 只 有 一 
个 客户 端 请 求 数据 ， 那 么 ， 应 用 服务 器 大 约会 25% 忙碌 ， 客 户 端 机 器 几乎 总 是 空 亲 的 。 如 
果 负 载 增加 到 4 个 并 发 的 客户 端 ， 则 应 用 服务 器 会 100% 忙碌 ,客户 端 机 器 可 能 只 有 20% 
的 忙碌 。 

只 看 客户 端 ， 很 容易 得 出 这 样 的 结论 : 因为 客户 端 CPU 大 量 过剩 ， 应 该 可 以 添加 更 多 线 
程 ， 改 善 其 伸缩 性 。 表 9-3 说 明了 这 种 假设 何其 错误 : 当 客 户 端 再 加 入 一 些 线程 时 ， 性 能 
会 受到 极 大 影响 。 

表 9-3: 计算 模拟 股票 价格 历史 的 平均 响应 时 间 

客户 端 线程 数 平均 响应 时 间 ( 秒 ) ”与 基准 的 百分比 

















1 0.05 100% 
2 0.05 100% 
4 0.05 100% 
6 0.076 152% 
8 0.104 208% 
16 0.212 424% 
32 0.437 874% 
64 0.909 1818% 





在 这 个 例子 中 ， 一 旦 应 用 服务 器 成 为 瓶颈 (也 就 是 说 ， 线 程 数 达到 4 个 时 )， 向 服务 器 增 
加 负载 是 非常 有 害 的 一 一 即使 只 是 在 客户 端 加 了 几 个 线程 。 

这 个 例子 看 上 去 可 能 有 点 有 意 为 之 。 如 果 服 务 器 已 经 是 CPU 密集 型 的 ， 谁 还 会 加 入 更 多 
线程 呢 ? 之 所 以 使 用 这 个 例子 ， 只 是 因为 它 容易 理解 ， 而 且 仅 使 用 了 Java 程序 。 这 意味 着 
读者 自己 就 可 以 运行 ， 并 理解 它 是 如 何 工作 的 ， 而 不 必 设 置 数据 库 连 接 、 模 式 (Schema) 
等 选项 。 

需要 指出 的 是 ， 对 于 还 要 向 CPU 密集 型 或 IO 密集 型 的 机 器 发 送 数 据 库 请 求 的 应 用 服务 器 
而 言 ， 同 样 的 原则 也 成 立 。 你 可 能 只 关注 应 用 服务 器 CPU， 看 到 小 于 100% 就 感觉 不 错 ， 
看 到 有 多 余 的 请 求 要 处 理 ， 就 假定 增加 应 用 服务 器 的 线程 数 是 个 不 错 的 主意 。 结 果 会 让 
人 大 吃 一 惊 ， 因 为 在 那 种 情况 下 增加 线程 数 ， 实 际 上 会 降低 整体 否 吐 量 (影响 可 能 非常 明 
显 )， 就 像 前 面 那个 只 有 Java 程序 的 例子 一 样 。 


了 解 系 统 真正 瓶颈 之 所 在 非常 重要 的 另 一 个 原因 是 : 如 果 还 向 瓶颈 处 增加 负载 ， 性 能 会 显 
著 下 降 。 相 反 ， 如 果 减 少 了 当前 瓶颈 处 的 负载 ， 性 能 可 能 会 上 升 。 
这 也 是 设计 自我 调 优 的 线程 池 非 常 困难 的 原因 所 在 。 线 程 池 通 常 对 挂 起 了 多 少 工作 有 所 了 
解 ， 甚 至 有 多 少 CPU 可 用 也 可 以 知道 ， 但 是 它们 通常 看 不 到 所 在 的 整个 环境 的 其 他 方面 。 
因此 ， 当 有 工作 挂 起 时 ， 增 加 线程 (这 是 很 多 自我 调 优 的 线程 池 的 一 个 核心 特性 ， 也 是 
ThreadPooLExecutor 的 某 些 配置 ) 往往 是 完全 错误 的 。 
遗憾 的 是 ， 设 置 最 大 线程 数 更 像 是 艺术 而 非 科 学 ， 原 因 也 在 于 此 。 在 现实 中 ， 测 试 条 件 下 
自我 调 优 的 线程 池 会 实现 可 能 性 能 的 80%~90%， 而 且 就 算 高 估 了 所 需 线 程 数 ， 也 可 能 只 
有 很 小 的 损失 。 但 是 当 设置 线程 数 大 小 这 方面 出 了 问题 时 ， 系 统 可 能 会 在 很 大 程度 上 出 现 
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问题 。 就 此 而 言 ， 充 足 的 测试 仍然 非常 关键 。 


9.1.2 设置 最 小 线程 数 

一 旦 确定 了 线程 池 的 最 大 线程 数 ， 就 该 确定 所 需 的 最 小 线程 数 了 。 大 部 分 情况 下 ， 开 发 者 
会 直截了当 地 将 它们 设置 为 同一 个 值 。 
将 最 小 线程 数 设置 为 其 他 某 个 值 (比如 1)， 出 发 点 是 防止 系统 创建 太 多 线程 ， 以 节省 系统 
资源 。 因 为 每 个 线程 都 需要 一 定量 的 内 存 ， 特 别 是 线程 的 栈 (本 章 后 面 会 讨论 )。 根 据 第 2 
章 的 一 般 原 则 之 一 ， 所 设置 的 系统 大 小 应 该 能 够 处 理 预期 的 最 大 吞吐 量 ， 而 要 达到 最 大 吞 
叶 量 ， 系 统 将 需要 创建 所 有 那些 线程 。 如 果 系 统 做 不 到 这 一 点 ， 那 选择 一 个 最 小 线程 数 也 
没什么 帮助 : 如 果 系 统 达 到 了 这 样 的 条 件 需要 按 所 设置 的 最 大 线程 数 启动 所 有 线程 ， 
而 又 无 法 满足 ， 系 统 将 陷入 困境 。 创 建 最 终 可 能 会 需要 的 所 有 线程 ， 并 确保 系统 可 以 处 理 
预期 的 最 大 负载 ， 这 样 更 好 。 


另 一 方面 ， 指 定 一 个 最 小 线程 数 的 负面 影响 相当 小 。 如 果 第 一 次 就 有 很 多 任务 要 执行 ， 会 
有 负面 影响 : 这 时 线程 池 需 要 创建 一 个 新 线程 。 创 建 线 程 对 性 能 不 利 ， 这 也 是 为 什么 起 初 
需要 线程 池 的 原因 ， 不 过 这 种 一 次 性 的 成 本 在 性 能 测试 中 很 可 能 察觉 不 到 (只 要 这 个 线程 
仍然 在 池 中 )。 

在 批 处 理应 用 中 ， 线 程 是 在 创建 线程 池 时 分 配 (如 果 将 最 大 线程 数 和 最 小 线程 数 设置 为 同 
一 个 值 ， 就 会 出 现 这 种 情况 )， 还 是 按 需 分 配 ， 并 不 重要 : 执行 应 用 所 需 的 时 间 是 一 样 的 。 
在 其 他 应 用 中 ， 新 线程 可 能 会 在 预 热 阶 段 分 配 (分 配 线程 的 总 时 间 还 是 一 样 的 )， 对 性 能 
9 影响 可 以 忽略 不 计 。 即 使 线程 创建 发 生 在 可 以 测量 的 周期 内 ， 只 要 此 类 操作 有 限 ， 也 很 
有 可 能 测 不 出 来 。 


另 一 个 可 以 调 优 的 地 方 是 线程 的 空 闪 时 间 。 比 如 ， 某 个 线程 池 的 最 小 线程 数 为 1， 最 大 线 
程 数 为 4。 现 在 假设 一 般 会 有 一 个 线程 在 执行 ， 处 理 一 个 任务 ， 然 后 应 用 进入 这 样 一 个 循 
环 : 每 15 秒 ， 负 载 平均 有 2 个 任务 要 执行 。 第 一 次 进入 这 个 循环 时 ， 线 程 池 会 创建 第 2 
个 线程 ， 此 时 ， 让 这 个 新 创建 的 线程 在 池 中 至 少 留 存 一 段 时 间 是 有 意义 的 。 我 们 希望 避免 
这 种 情况 : 第 2 个 线程 创建 出 来 后 ，5 秒 钟 内 结束 其 任务 ， 空 几 5 秒 ， 然 后 退出 了 。 而 5 
秒 之 后 又 需要 为 下 一 个 任务 创建 一 个 线程 。 一 般 而 言 ， 对 于 线程 数 为 最 小 值 的 线程 地 ， 一 
个 新 线程 一 旦 创建 出 来 ， 至 少 应 该 留存 儿 分 钟 ， 以 处 理 任何 负载 飙升 。 如 果 任 务 到 达 率 有 
个 比较 好 的 模型 ， 可 以 基于 这 个 模型 设置 空闲 时 间 。 另 外 ， 空 闲 时 间 应 该 以 分 钟 计 ， 而 且 
至 少 在 10 分 钟 到 30 分 钟 之 间 。 
留存 一 些 空闲 线程 ， 对 应 用 性 能 的 影响 通常 微乎其微 。 一 般 而 言 ， 线 程 对 象 本 身 不 会 占用 
大 量 的 堆 空间 。 除 非 线 程 保 持 了 大 量 的 线程 局 部 存储 ， 或 者 线程 的 Runnable 对 象 引 用 了 大 
量 内 存 。 不 管 是 哪 种 情况 ， 释 放 这 样 的 线程 都 会 显著 减少 堆 中 的 活 数据 (这 反 过 来 又 会 影 
响 GC 的 效率 )。 
不 过 对 线程 池 而 言 ， 这 些 情况 并 不 多 见 。 当 池 中 的 某 个 对 象 空间 时 ， 它 就 不 应 该 再 引用 任 
何 Runnable 对 象 (如果 引用 了 ， 就 说 明 哪 个 地 方 有 bug 了 )。 根 据 线程 池 的 实现 情况 ， 线 
程 局 部 变量 可 能 会 继续 保留 ， 尽管 在 某 些 情况 下 ， 线 程 局 部 变量 可 以 有 效 促 成 对 象 重用 
(参见 第 7 章 ) ， 但 是 那些 线程 局 部 对 象 所 占用 的 总 的 内 存量 ， 应 该 加 以 限制 。 
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对 于 可 能 会 增长 到 非常 大 (当然 也 是 运行 在 规模 很 大 的 机 器 上 ) 的 线程 池 ， 这 个 规则 有 个 
重要 的 特例 。 举 例 而 言 ， 假 设 某 个 线程 池 的 任务 队列 预计 平均 有 20 个 任务 ， 那 么 20 就 是 
很 好 的 最 小 值 。 再 假设 这 个 池 运 行 在 一 个 规模 很 大 的 机 器 上 ， 它 被 设计 为 可 以 处 理 2000 
个 任务 的 峰值 负载 。 如 果 在 池 中 留存 2000 个 空闲 线程 ， 则 当 只 有 20 个 任务 时 ， 对 性 能 会 
有 所 影响 : 如 果 只 有 核心 的 20 个 线程 忙碌 ， 与 有 1980 个 空闲 线程 相 比 ， 前 者 的 吞吐 量 可 
能 是 后 者 的 50%。 线 程 池 一 般 不 会 遇 到 这 样 的 问题 ， 但 如 果 遇 到 了 ， 那 就 应 该 确认 一 下 字 
的 合适 的 最 小 值 了 。 


9.1.3 ”线程 池 任 务 大 小 


等 待 线程 池 来 执行 的 任务 会 被 保存 到 某 类 队列 或 列表 中 ， 当 池 中 有 线程 可 以 执行 任务 时 ， 
就 从 队列 中 拉 出 一 个 。 这 会 导致 不 均衡 : 队列 中 任务 的 数量 有 可 能 变 得 非常 大 。 如 果 队 列 
太 大 ， 其 中 的 任务 就 必须 等 待 很 长 时 间 ， 直 到 前 面 的 任务 执行 完毕 。 例 如 一 个 超 负 荷 的 
Web 服务 器 : 如 果 有 个 任务 被 添加 到 队列 中 ,但 是 没有 在 3 秒 钟 内 执行 ， 那 用 户 很 可 能 就 
去 看 另 一 个 页 面 了 。 


因此 ， 对 于 容纳 等 待 执行 任务 的 队列 ， 线 程 池 通 常会 限制 其 大 小 。 根 据 用 于 容纳 等 待 执行 
任务 的 数据 结构 的 不 同 ，ThreadPooLExecutor 会 有 不 同 的 处 理 方式 〈 下 一 节 会 更 详细 地 介 
绍 ) ， 应 用 服务 器 通常 有 一 些 调 优 参数 ， 可 以 调整 这 个 值 。 


就 像 线 程 池 的 最 大 线程 数 ， 这 个 值 应 该 如 何 调 优 ， 并 没有 一 个 通用 的 规则 。 举 例 而 言 ， 假 
设 某 个 应 用 服务 器 的 任务 队列 中 有 30 000 个 任务 ， 有 4 个 CPU 可 用 ， 如 果 执 行 一 个 任务 
只 需要 50 剖 秒 ， 同 时 假设 这 段 时 间 不 会 到 达 新 任务 ， 则 清空 任务 队列 需要 6 分 钟 。 这 可 
能 是 可 以 接受 的 ， 但 如 果 每 个 任务 需要 1 秒 钟 ， 则 清空 任务 队列 需要 2 小 时 。 因 此 ， 阁 要 
确定 使 用 哪个 值 能 带 来 我 们 需要 的 性 能 ， 测 量 我 们 的 真实 应 用 是 唯一 的 途径 。 


不 管 是 哪 种 情况 ， 如 果 达 到 了 队列 数 限制 ， 再 添加 任务 就 会 失败 。ThreadPoolExecutor 
有 一 个 rejectedExecution 方 法 ， 用 于 处 理 这 种 情况 (默认 会 抛 出 
RejectedExecutionException)。 应 用 服务 器 会 向 用 户 返 回 某 个 错误 : 或 者 是 HITP 状态 码 
500 (内 部 错误 )， 或 者 是 Web 服务 器 捕获 错误 ， 并 向 用 户 给 出 合理 的 解释 消息 一 一 其 中 后 
者 是 最 理想 的 。 























































































































































































































9.1.4 设置 ThreadPooLExecutor 的 大 小 


线程 池 的 一 般 行 为 是 这 样 的 : 创建 时 准备 好 最 小 数目 的 线程 ， 如 果 来 了 一 个 任务 ， 而 此 时 
所 有 的 线程 都 在 忙碌 ， 则 启动 一 个 新 线程 (一 直到 达到 最 大 线程 数 )， 任 务 就 可 以 立即 执 
行 了 。 否 则 ， 任 务 被 加 入 等 待 队 列 ， 如 果 任 务 队 列 中 已 经 无 法 加 入 新 任务 ， 则 拒绝 之 。 不 
过 ，ThreadPooLExecutor 的 表现 可 能 和 这 种 标准 行为 有 点 不 同 。 

根据 所 选任 务 队列 的 类 型 ，ThreadPooLExecutor 会 决定 何 时 启动 一 个 新 线程 。 有 以 下 3 种 
可 能 。 

SynchronousQueue 


如 果 ThreadPooLExecutor 搭配 的 是 SynchronousQueue， 则 线程 池 的 行为 会 和 我 们 预计 的 
一 样 ， 它 会 考虑 线程 数 : 如 果 所 有 的 线程 都 在 忙碌 ， 而 且 池 中 的 线程 数 尚 未 达到 最 大 ， 
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则 新 任务 会 启动 一 个 新 线程 。 然 而 ， 这 个 队列 没 办 法 保存 等 待 的 任务 : 如 有 果 来 了 一 个 任 





























务 ， 创 建 的 线程 数 已 经 达到 最 大 值 ， 而 且 所 有 线程 都 在 忙碌 ， 则 新 的 任务 总 是 会 被 拒 
绝 。 所 以 如 果 只 是 管理 少量 的 任务 ， 这 是 个 不 错 的 选择 ， 但 是 对 于 其 他 情况 ， 就 不 合适 






































了 。 该 类 文档 建议 将 最 大 线程 数 指定 为 一 个 非常 大 的 值 ， 如 果 任 务 完全 是 CPU 密集 型 
的 ， 这 可 能 行 得 通 ， 但 是 我 们 会 看 到 ， 其 他 情况 下 可 能 会 适得其反 。 男 一 方面 ， 如 果 需 


























要 一 个 容易 调整 线程 数 的 线程 池 ， 这 种 选择 会 更 好 。 


无 界 队 列 


如 果 ThreadPoolExecutor 搭配 的 是 无 界 队 列 (比如 LinkedBlockedingQueue)， 则 不 会 拒 
绝 任何 任务 (因为 队列 大 小 没有 限制 )。 这 种 情况 下 ，ThreadPoolExecutor 最 多 仅 会 按 
最 小 线程 数 创建 线程 ， 也 就 是 说 ， 最 大 线程 池 大 小 被 忽略 了 。 如 果 最 大 线程 数 和 最 小 线 
程 数 相同 ， 则 这 种 选择 和 配置 了 固定 线程 数 的 传统 线程 池 运行 机 制 最 为 接近 。 


























有 界 队 列 





在 决定 何 时 启动 一 个 新 线程 时 ， 使 用 了 有 界 队 列 (如 ArrayBLockingQueue) 的 
ThreadPooLExecutor 会 采用 一 个 非常 复杂 的 算法 。 比 如 ， 假 设 凶 的 核心 大 小 为 4， 最 大 
为 8， 所 用 的 ArrayBLockingQueue 最 大 为 10。 随 着 任务 到 达 并 被 放 到 队列 中 ， 线 程 地 中 
最 多 会 运行 4 个 线程 (也 就 是 核心 大 小 )。 即 使 队列 完全 填 满 ， 也 就 是 说 有 10 个 处 于 等 
待 状态 的 任务 ，ThreadPooLExecutor 也 是 只 利用 4 个 线程 。 

如 果 队 列 已 满 ， 而 又 有 新 任务 加 进来 ， 此 时 才 会 启动 一 个 新 线程 。 这 里 不 会 因为 队列 已 
满 而 拒绝 该 任务 ， 相 反 ， 会 启动 一 个 新 线程 。 新 线程 会 运行 队列 中 的 第 一 个 任务 ， 为 新 
来 的 任务 腾 出 空间 。 

在 这 个 例子 中 ， 池 中 会 有 8 个 线程 (最 大 线程 数 ) 的 唯一 一 种 情形 是 ， 有 7 个 任务 正在 
处 理 ， 队 列 中 有 10 个 任务 ， 这 时 又 来 了 一 个 新 任务 。 

这 个 算法 背后 的 理念 是 ， 该 地 大 部 分 时 间 仅 使 用 核心 线程 (4 个 ) ， 即 使 有 适量 的 任务 
在 队列 中 等 待 运行 。 这 时 线程 池 就 可 以 用 作 节 流 阀 〈 这 是 很 有 好 处 的 )。 如 果 积 压 的 请 
求 变 得 非常 多 ， 该 池 就 会 尝试 运行 更 多 线程 来 清理 ， 这 时 第 二 个 节 流 阀 最 大 线程 
数 一 一 就 起 作用 了 。 

如 果 系 统 没 有 外 部 瓶 代 ，CPU 周期 也 足够 ， 那 一 切 就 都 解决 了 : 加 入 新 的 线程 可 以 更 快 
地 处 理 任务 队列 ， 并 很 可 能 使 其 回 到 预期 大 小 。 该 算法 所 适合 的 用 例 当 然 也 很 容易 构造 。 


男 一 方面 ， 该 算法 并 不 知道 队列 为 何 会 突然 增 大 。 如 果 是 因为 外 部 的 任务 积压 ， 那 么 加 
入 更 多 线程 并 非 明 智之 举 。 如 果 该 线程 所 运行 的 机 器 已 经 是 CPU 密集 型 的 ， 加 入 更 多 
线程 也 是 错误 的 。 只 有 当 任 务 积压 是 由 额外 的 负载 进入 系统 (比如 有 更 多 客户 端 发 起 
HTTP 请 求 ) 引发 时 ， 增 加 线程 才 是 有 意义 的 。( 如 果 是 这 种 情况 ， 为 什么 要 等 到 队列 
已 经 接近 某 个 边界 时 才 增 加 呢 ? 如 果 有 额外 的 资源 供 更 多 线程 使 用 ， 则 尽早 增加 线程 将 
改善 系统 的 整体 性 能 。) 



































































































































对 于 上 面 提 到 的 每 一 种 选择 ， 都 能 找到 





I 很 多 支持 或 反对 的 论据 ， 但 是 在 尝试 获 


但 上 旦 


得 最 好 的 性 


能 时 ， 可 以 应 用 KISS 原 贝 


程 数 和 最 大 线程 数 设 为 相同 ， 在 保存 等 待 任务 方 

















| “Keep it simple, stupid”。 可 以 将 ThreadPooLExecutor 的 核心 线 





看 ， 如 果 适 合 使 用 无 界 任务 列表 ， 则 选择 











LinkedBlockingQueue; 如 果 适 合 使 用 有 界 任务 列表 ， 则 选择 ArrayBLockingQueue。 
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快速 小 结 

1. 有 了 时 对 象 池 也 是 不 错 的 选择 ， 线 程 池 就 是 情形 之 一 : 线程 初始 化 的 成 本 
很 高 ， 线 程 池 使 得 系统 上 的 线程 数 容易 控制 。 

2. 线程 池 必 须 仔 细 调 优 。 盲 目 向 池 中 添加 新 线程 ， 在 某 些 情况 下 对 性 能 会 
有 不 利 影响 。 

3. 在 使 用 ThreadPoolExecutor 时 ， 选 择 更 简单 的 选项 通常 会 带 来 最 好 的 、 
最 能 预见 的 性 能 。 









































9.2 ForkJotinPoolL 


Java 7 引入 了 一 个 新 的 线程 地 : ForkJoinPool 类 。 这 个 类 看 上 去 和 其 他 任何 线程 池 都 很 像 ; 
和 ThreadPooLExecutor 类 一 样 ， 它 也 实现 了 Executor 和 ExecutorService 接口 。 在 支持 这 
些 接口 方面 ，ForkJotinPoot 在 内 部 会 使 用 一 个 无 界 任务 列表 ， 供 构造 器 中 所 指定 数目 〈 如 
果 所 选 的 是 无 参 构造 器 ， 则 为 该 机 器 上 的 CPU 数 ) 的 线程 来 运行 。 


ForkJoinPool 类 是 为 配合 分 治 算法 的 使 用 而 设计 的 : 任务 可 以 递归 地 分 解 为 子 集 。 这 些 子 
集 可 以 并 行 处 理 ， 然 后 每 个 子 集 的 结果 被 归并 到 一 个 结果 中 。 一 个 经 典 的 例子 就 是 快速 排 
序 算法 。 

分 治 算法 的 重点 是 ， 算 法 会 创建 大 量 的 任务 ， 而 这 些 任务 只 有 相对 较 少 的 几 个 线程 来 管 
理 。 比 如 要 排序 一 个 包含 1000 万 个 元 素 的 数组 。 首 先 创建 单独 的 任务 来 执行 3 个 操作 : 
排序 包含 前 面 500 万 个 元 素 的 子 数组 ， 再 排序 包含 后 面 500 万 个 元 素 的 子 数 组 ， 然 后 合并 
两 个 子 数组 。 

类 似 地 ， 要 排序 包含 500 万 个 元 素 的 数组 ， 可 以 分 别 排序 包含 250 万 个 元 素 的 子 数组 ， 然 
后 合并 子 数组 。 一 直 递 归 到 某 个 点 (比如 到 子 数组 包含 10 个 元 素 时 )， 这 时 在 子 数组 上 使 
用 插入 排序 直接 处 理 更 为 高 效 。 图 9-1 演示 了 其 工作 方式 。 
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图 9-1: 递归 快速 排序 中 的 任务 
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最 后 会 有 超过 100 万 个 任务 来 排序 叶子 数组 (每 个 数组 少 于 10 个 元 素 ， 这 时 候 直接 排序 
即 可 ; 这 里 只 是 用 10 来 举例 ， 实 际 值 会 随 实现 的 不 同 而 有 所 变化 。 在 目前 的 Java 库 实 现 
中 , 当 数 组 少 于 47 个 元 素 时 ,会 采用 插入 排序 ) 。 需 要 50 多 万 个 任务 来 归并 那些 排 好 序 的 
数组 ， 归 并 下 一 级 又 需要 25 万 个 任务 ， 依 此 类 推 。 最 后 会 有 2 097 151 个 任务 。 


更 大 的 问题 是 ， 所 有 任务 都 要 等 待 它们 派生 出 的 任务 先 完成 ， 然 后 才能 完成 。 对 于 元 素数 
少 于 10 的 子 数组 ， 直 接 对 它们 做 排序 的 任务 必须 优先 完成 ， 在 此 之 后 ， 创 建 相应 子 数组 
的 任务 才能 归并 其 子 数组 的 结果 ， 依 此 类 推 : 链条 上 的 所 有 任务 依次 归并 ， 直 到 整个 数组 
被 归并 为 最 终 的 、 排 序 好 的 结果 。 


因为 父 任务 必须 等 待 子 任 务 完成 ， 所 以 无 法 使 用 ThreadPooLExecutor 高 效 实现 这 个 算法 。 
ThreadPoolExecutor 内 的 线程 无 法 将 另 一 个 任务 添加 到 队列 中 并 等 待 其 完成 : 一 旦 线程 进 
入 等 待 状态 ， 就 无 法 使 用 该 线程 执行 它 的 某 个 子 任务 了 。 另 一 方面 ，ForkJoinPool 则 允许 
其 中 的 线程 创建 新 任务 ， 之 后 挂 起 当前 的 任务 。 当 任务 被 挂 起 时 ， 线 程 可 以 执行 其 他 等 待 
的 任务 。 


举 个 简单 的 例子 : 比如 说 有 个 double 数组 ， 我 们 想 计算 数组 中 小 于 0.5 的 元 素 的 个 数 。 顺 
序 扫描 比较 简单 〈 可 能 还 有 优势 ， 本 节 后 面 会 看 到 ) ， 但 是 为 了 说 明 问 题 ， 现 在 把 数组 划 
分 为 子 数组 ， 并 行 扫描 (模仿 更 复杂 的 快速 排序 和 其 他 分 治 算法 )。 使 用 ForkJoinPool 实 
现 这 一 功能 的 代码 如 下 : 


public class ForkJoinTest { 
private double[] d; 





































































































private class ForkJoinTask extends RecursiveTask<Integer> { 
private int first; 
private int last; 


public ForkjJoinTask(int first, int last) { 
this.first = first; 
this.last = last; 


} 


protected Integer compute() { 
int subCount; 
if (last - first < 10) { 
subCount = 0; 
for (int i = first; i <= last; i+t+) { 
if (d[i] < 0.5) 
subCount++; 


} 


} 

else { 
int mid = (first + last) >>> 1; 
ForkJoinTask Left = new ForkJoinTask(first, mid); 
Left.fork(); 
ForkJoinTask right = new ForkJoinTask(mid + 1, last); 
right.fork(); 





注 1: 可 以 参考 java.util.DualPivotQuicksort 的 实现 。 一 一 译 者 注 
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subCount = left.join(); 
subCount += right.join(); 


return subCount; 


} 


public static void main(String[] args) { 
d = createArrayOfRandomDoubles(); 
int n = new ForkJoinpool().invoke(new ForkJoinTask(0, 9999999)); 
System.out.printLn("Found " + Nn + " values"); 


} 


fork() 和 join() 方法 是 这 里 的 关键 : 没有 这 些 方法 ， 实 现 这 类 递归 会 非常 痛苦 (在 由 
ThreadPoolExecutor 执行 的 任务 中 就 没有 这 些 方 法 )。 这 些 方 法 使 用 了 一 系列 内 部 的 、 从 属 
于 每 个 线程 的 队列 来 操纵 任务 ， 并 将 线程 从 执行 一 个 任务 切换 到 执行 另 一 个 。 细 节 对 开发 
者 是 透明 的 ， 不 过 如 果 对 算法 感 兴趣 ， 其 代码 读 起 来 也 很 有 意思 。 这 里 我 们 重点 关注 的 是 
性 能 : ForkJoinPool 和 ThreadPoolExecutor 这 两 个 类 之 间 有 什么 权衡 取舍 呢 ? 


首先 ，forK/join 范 型 所 实现 的 挂 起 ， 使 得 所 有 任务 可 以 交 由 少量 的 线程 执行 。 使 用 该 示例 
代码 计算 包含 1000 万 个 元 素 的 数组 中 的 double 值 ， 会 创建 200 多 万 个 任务 ， 但 这 些 任务 
很 容易 交 由 少量 一 些 线程 执行 (甚至 是 一 个 线程 ， 如 果 这 对 运行 测试 的 机 器 有 意义 的 话 )。 
使 用 ThreadPoolExecutor 运行 类 似 算 法 则 需要 200 多 万 个 线程 ， 因 为 每 个 线程 必须 等 待 其 
子 任务 完成 ， 而 且 那 些 子 任务 只 有 在 地 中 有 可 用 线程 时 才能 完成 。 有 了 fork/join， 我 们 可 
以 实现 用 ThreadPooLExecutor 无 法 实现 的 算法 ， 这 就 是 一 个 性 能 优势 。 

尽管 分 治 技术 非常 强大 ， 但 是 滥用 也 可 能 会 导致 性 能 变 糟 糕 。 在 计数 的 这 个 例子 中 ， 可 以 
使 用 一 个 线程 来 扫描 数组 并 计数 ， 虽 然 未 必 能 像 并 行 运行 fork/join 算法 那样 快 。 然 而 ， 把 
原 数 组 划分 为 多 个 断 ， 使 用 ThreadPooLExecutor 让 多 个 线程 扫描 数组 ， 也 是 非常 容易 的 : 


public class ThreadPooLTest { 
private double[] d; 
























































private class ThreadPooLExecutorTask impLements Callable<Integer> { 
private int first; 
private int last; 


public ThreadPoolExecutorTask(int first, int last) { 
this.first = first; 
this.last = last; 


} 


public Integer call() { 
int subCount = 0; 
for (int i = first; i <= last; i++) { 
if (d[i] < 0.5) { 
subCount++; 


} 


return subCount; 
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public static void main(String[] args) { 

d = createArray0fRandomDoubles(); 
ThreadPooLExecutor tpe = new ThreadPoolExecutor(4, 4, 

Long .MAX_VALUE ， 

TimeUnit .SECONDS ， 

new LinkedBlockingQueue()); 
Future[] 
int size 
for (int 

f[i] 


= new Future[4]; 
d.Length / 4; 
= 0; i < 3; i++) { 
tpe.submit( 
new ThreadPoolExecutorTask(i * size, (i + 1) * size - 1); 


[et | 


3 
f[3] = tpe.submit(new ThreadPooLExecutorTask(3 * size, d.length - 1); 
int n = 0; 
for (int i = 0; i < 4; i+t+) { 
n += f.get(); 
3 


System.out.printLn("Found " + Nn + " values"); 


} 


在 一 个 配备 了 4 个 CPU 的 机 器 上 ， 这 上段 代码 可 以 充分 利用 所 有 可 用 的 CPU， 并 行 处 理 数 
组 ， 同 时 避免 像 fork/join 示例 中 那样 创建 和 排队 处 理 200 万 个 任务 。 可 以 预见 性 能 会 快 
些 ， 如 表 9-4 所 示 。 


表 9-4: 对 1 亿 个 元 素 做 计数 处 理 




















线程 数 ForkJoinPool ( 秒 ) ThreadPoolExecutor ( 秒 ) 
1 3:2 0.31 
4 1.9 0.15 





测试 所 用 的 机 器 有 4 个 CPU，4 GB 固定 内 存 。 测 试 中 ，ThreadPoolExecutor 完全 不 需要 
GC， 而 每 个 ForkJoinPool 测试 会 花 1.2 秒 在 GC 上 。 对 于 性 能 差异 而 言 ， 这 一 点 所 占 比重 
很 大 ， 但 这 并 非 故事 的 全 部 : 创建 和 管理 任务 对 象 的 开销 也 会 伤害 ForkJoinPool 的 性 能 。 
如 果 有 类 似 的 替代 方案 ， 很 可 能 会 更 快 ， 至 少 在 这 个 简单 的 例子 中 是 这 样 。 

ForkJoinPoot 还 有 一 个 额外 的 特性 ， 它 实现 了 工作 窃取 (work-stealing)。 这 基本 上 就 是 一 
个 实现 细节 了 ; 这 意味 着 池 中 的 每 个 线程 都 有 自己 所 创建 任务 的 队列 。 线 程 会 优先 处 理 自 
己 队列 中 的 任务 ， 但 如 果 这 个 队列 已 空 ， 它 会 从 其 他 线程 的 队列 中 窃取 任务 。 其 结果 是 ， 
即使 200 万 个 任务 中 有 一 个 需要 很 长 的 执行 时 间 ，ForkJoinPool 中 的 其 他 线程 也 可 以 完成 
其 余 的 随便 什么 任务 。ThreadPoolExecutor 则 不 会 这 样 : 如 果 一 个 任务 需要 很 长 的 时 间 ， 
其 他 线程 并 不 能 处 理 额外 的 工作 。 

示例 代码 先是 计算 数组 中 小 于 0.5 的 元 素数 。 此 外 ， 如 果 代 码 中 还 计算 了 一 个 新 的 值 ， 并 
保存 到 数组 中 了 ， 会 发 生 什么 ?一 个 没有 实际 意义 但 却 是 CPU 密集 型 的 实现 可 以 执行 以 
下 代码 : 


for (int i = first; i <= last; 1L++) { 
if (d[i] < 0.5) { 
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subCount++; 
4 
for (int j = 0; j < d.length - i; j++) { 
for (int k = 0; k < 100; k++) { 
dummy = j * k + i; // dummy is volatile, so multiple writes occur 
d[i] = dummy; 
} 
} 


因为 用 j 索引 的 外 部 循环 是 基于 元 素 在 数组 中 的 位 置 处 理 的 ， 所 以 计算 所 需要 的 时 间 和 元 
素 位 置 成 比例 关系 : 计算 d[9] 的 值 需要 很 长 的 时 间 ， 而 计算 d[d.Length - 1] 则 只 需要 很 
短 的 时 间 。 

简单 地 将 数组 分 为 4 段 ， 用 ThreadPooLExecutor 处 理 ， 这 个 测试 有 一 个 不 好 的 地 方 。 计 算 
数组 第 1 段 的 线程 需要 很 长 的 时 间 才 能 完成 ， 比 处 理 数 组 最 后 一 段 的 第 4 个 线程 所 需 的 时 
间 长 得 多 。 一 旦 第 4 个 线程 结束 ， 它 就 会 处 于 空闲 状态 : 所 有 线程 都 要 等 第 1 个 线程 完成 
它 的 耗 时 较 长 的 任务 。 

在 粒度 为 200 万 个 任务 的 ForkJoinPool 中 ,尽管 有 一 个 线程 会 忙于 针对 数组 中 的 前 10 个 
元 素 的 非常 耗 时 的 计算 ,但 是 其 余 线程 都 有 工作 可 做 ， 在 大 部 分 测试 过 程 中 ，CPU 会 保持 
忙碌 。 区 别 如 表 9-5 所 示 。 

表 9-5: 处 理 包 含 10 000 个 元 素 的 数组 的 时 间 












































线程 数 ForkJoinPool ( 秒 ) ThreadPooLExecutor ( 秒 ) 
1 54.5 53.3 
4 16.6 24.2 


























当 池 中 只 有 一 个 线程 时 ， 计 算 所 花 的 时 间 基 本 一 样 。 这 可 以 理解 :不管 池 如 何 实现 ， 计 算 
量 是 一 样 的， 而 且 因 为 那些 计算 绝对 不 会 并 行进 行 ， 所 以 可 以 预计 它们 所 需 的 时 间 是 一 样 
的 (尽管 创建 200 万 个 任务 会 有 少量 开销 )。 但 是 当 池 中 包含 4 个 线程 时 ，ForkJoinPool 
中 任务 的 粒度 会 带 来 一 个 决定 性 的 优势 : 几乎 在 测试 的 整个 过 程 中 ， 都 能 保持 CPU 的 忙 
碌 状态 。 


这 种 情况 就 叫 作 “不 均衡 ”， 因 为 某 些 任务 所 花 的 时 间 比 其 他 任务 长 〈 因 此 前 面 例子 中 的 任 
务 可 以 说 是 “均衡 的 ")。 一 般 而 言 ， 如 果 任 务 是 均衡 的 ， 使 用 分 段 的 ThreadPoolExecutor 
性 能 更 好 ， 而 如 果 任 务 是 不 均衡 的 ， 则 使 用 ForkJoinPoot 性 能 更 好 。 


还 有 一 个 更 微妙 的 性 能 方面 的 建议 : 请 仔细 考虑 fork/join 范 型 应 该 在 哪个 点 结束 递归 。 在 
这 个 例子 中 ， 我 信 手 选择 了 当 数 组 大 小 小 于 10 时 结束 。 如 果 在 数组 大 小 为 250 万 时 停止 
递归 ， 那 么 fork/join 测试 (在 搭载 4 个 CPU 的 机 器 上 ， 处 理 1000 万 个 元 素 的 平衡 代码 ) 
会 只 创建 4 个 任务 ， 其 性 能 基本 和 ThreadPooLExecutor 一 样 。 


男 一 方面 ， 对 于 这 个 例子 ， 在 非 平衡 的 测试 中 ， 继 续 递 归 会 有 更 好 的 性 能 ， 即 使 创建 更 多 
任务 。 表 9-6 给 出 了 一 些 有 代表 性 的 数据 点 。 
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表 9-6: 处 理 包 售 10 000 个 元 素 的 数组 的 时 间 
叶子 数组 大 小 ForkJoinPool ( 秒 ) 








20 17.8 
10 16.6 
5 15.6 
1 16.8 





自动 并 行 化 

Java 8 向 Java 中 引入 了 自动 并 行 化 特定 种 类 代码 的 能 力 。 这 种 并 行 化 就 依赖 于 
ForkJoinPool 类 的 使 用 。Java 8 为 这 个 类 加 入 了 一 个 新 特性 : 一 个 公共 的 池 ， 可 供 任何 
没有 显 式 指定 给 某 个 特定 池 的 ForkJoinTask 使 用 。 这 个 公共 池 是 ForkJoinPool 类 的 一 个 
static 元 素 ， 其 大 小 默认 设置 为 目标 机 器 上 的 处 理 器 数 。 


这 种 并 行 化 在 Arrays 类 的 很 多 新 方法 中 都 会 发 生 ， 包 括 使 用 并 行 快速 排序 处 理 数组 的 方 
法 ， 操 作 数 组 的 每 个 元 素 的 方法 ， 等 等 。 在 Java 8 的 Stream 特性 中 也 有 应 用 ， 支 持 在 集 
合 中 的 每 个 元 素 上 (或 顺序 或 并 行 地 ) 执行 操作 。Stream 的 一 些 基本 的 性 能 特性 会 在 第 12 
章 讨 论 ， 在 本 节 中 ， 我 们 看 一 下 Stream 是 如 何 自动 地 并 行 处 理 的 。 


给 定 一 个 包含 一 系列 整 型 数 的 集合 ， 下 列 代码 会 计算 与 给 定 整 型 数 匹配 的 股票 代号 的 价格 
历史 : 


Stream<Integer> stream = arrayList.parallelStream(); 
stream.forEach(a -> { 
String symbol = StockpPriceUtils.makeSymbol(a); 
StockPriceHistory sph = new StockpPriceHistoryImpl(symbol, startDate, 
endDate, entityManager); 






























































}); 


这 段 代 码 会 并 行 计 算 模拟 价格 历史 : forEach() 方法 将 为 数组 列表 中 的 每 个 元 素 创 建 一 个 
任务 ， 每 个 任务 都 会 由 公共 的 ForkJoinTask 池 处 理 。 它 在 功能 上 与 本 章 开始 所 做 的 测试 是 
等 价 的 ， 那 个 测试 是 用 一 个 线程 池 来 并 行 计算 价格 历史 (不 过 与 显 式 使 用 线程 池 相 比 ， 这 
段 代 码 写 起 来 更 容易 )。 
设置 ForkJoinTask 池 的 大 小 和 设置 其 他 任何 线程 池 同 样 重要 。 默 认 情 况 下 ， 公 共 池 的 线程 
数 等 于 机 器 上 的 CPU 数 。 如 果 在 同一 机 器 上 运行 着 多 个 JVM， 则 应 限制 这 个 线程 数 ， 以 
防 这 些 JVM 彼此 争 用 CPU。 类 似 地 ， 如 果 Servlet 代码 会 执行 某 个 并 行 任务 ， 而 我 们 想 确 
保 CPU 可 供 其 他 任务 使 用 ， 可 以 考虑 减 小 公共 池 的 线程 数 。 另 外 ， 如 果 公 共 池 中 的 任务 
会 阻塞 等 待 IO 或 其 他 数据 ， 也 可 以 考虑 增 大 线程 数 。 

这 个 值 可 以 通过 设置 系统 属性 -Djava.util.concurrent.ForkJoinPool.common.parallelism=N 
来 指定 。 

在 本 章 前 面 的 表 9-1 中 ， 曾 经 对 比 过 线程 数 对 并 行 计算 股 票 历史 价格 的 影响 。 表 9-7 使 用 
共同 的 ForkJoinPool (将 parallelisn 系统 属性 设置 为 给 定 的 值 ) 将 那个 数据 与 forEach() 
构造 作 了 比较 。 
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表 9-7: 计算 10 000 支 模拟 股票 价格 历史 所 需 的 时 间 


线程 数 ThreadPoolExecutor ( 秒 ) ForkJoinPool ( 秒 ) 








1 255.6 135.4 
2 134.8 110.2 
4 77.0 96.5 
8 81.7 84.0 
15 85.6 84.6 





默认 情况 下 ， 公 共 池 有 4 个 线程 (在 这 个 配置 了 4 个 CPU 的 机 器 上 )， 所 以 表 中 的 第 3 行 
为 一 般 情况 。 在 线程 数 为 1 和 2 时 ， 这 类 结果 会 让 性 能 工程 师 很 不 开心 : 它们 看 上 去 很 
不 协调 ， 而 当 某 一 项 测试 出 现 这 样 的 情况 时 ， 最 常见 的 原因 是 测试 错误 。 这 里 的 原因 是 
forEach() 方法 有 些 奇 怪 的 行为 : 它 使 用 了 一 个 线程 执行 语句 ， 还 使 用 了 公共 池 中 的 线程 
处 理 来 自 Stream 的 数据 。 即 使 在 第 1 个 测试 中 ， 公 共 池 也 是 配置 为 使 用 一 个 线程 ， 总 的 还 
是 会 使 用 两 个 线程 来 计算 结果 。( 因 此 ,使 用 了 2 个 线程 的 ThreadPooLExecutor 和 使 用 了 1 
个 线程 的 ForkJoinPool 的 耗 时 基本 相同 。) 


在 使 用 并 行 Stream 构造 或 其 他 自动 并 行 化 特性 时 ， 如 果 需 要 调整 公共 池 的 大 小 ， 可 以 考虑 
将 所 需 的 值 减 1。 


快速 小 结 

1. ForkJoinPool 类 应 该 用 于 递归 、 分 治 算 法 。 

2 应 该 花 些 心思 来 确定 ， 算 法 中 的 递归 任务 何 时 结束 最 为 合适 。 创 建 太 多 
任务 会 降低 性 能 ， 但 如 果 任 务 太 少 ， 而 任务 所 需 的 执行 时 间 又 长 短 不 一 ， 
也 会 降低 性 能 。 

3. Java 8 中 使 用 了 自动 并 行 化 的 特性 会 用 到 一 个 公共 的 ForkJoinPool 实例 。 
我 们 可 能 需要 根据 实际 情况 调整 这 个 实例 的 默认 大 小 。 


9.3 ”线程 同步 


在 理想 的 世界 中 ， 或 者 是 在 书本 上 的 例子 中 ， 很 容易 避 开 对 线程 同步 的 需求 。 而 在 现实 世 
界 中 ， 就 未 必 那 么 容易 了 。 





















































同步 与 Java 并 发 设施 
在 本 节 中 ， 当 用 到 “同步 ”(synchronization) 这 个 术语 时 ， 它 指 的 是 这 样 的 代码 : 这 
段 代码 在 一 个 代码 块 内 ， 它 们 对 一 组 变量 的 访问 看 上 去 是 囊 行 的 ， 每 次 只 有 一 个 线程 
能 访问 内 存 。 具 体 而 言 ， 既 包括 用 synchronized 关键 字 保护 的 代码 块 , 也 包括 用 java. 
util.concurrent.lock.Lock 实例 保护 的 代码 ， 再 就 是 java.util.concurrent 和 java. 
util.concurrent.atomic 包 内 的 代码 。 


严格 来 讲 ，atomic 下 的 类 并 没有 使 用 同步 ， 至 少 从 CPU 编程 术语 来 看 是 这 样 的 。 它 们 
利用 了 “比较 与 交换 ”(Compare and Swap，CAS) CPU 指令 ， 而 同步 需要 互 斥 访问 某 
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个 资源 。 在 同步 访问 同一 资源 时 ， 利 用 了 CAS 指令 的 线程 不 会 阻塞 ， 而 对 于 需要 同步 
锁 的 线程 而 言 ， 如 果 另 一 个 线程 占据 了 该 资源 ， 则 这 个 线程 会 阻塞 。 

这 两 种 方式 之 间 存 在 性 能 的 权衡 (本 节 后 面 会 讨论 ) 。 然 而 ， 即 使 CAS 指令 是 无 锁 、 
非 阻塞 的 ， 它 们 仍然 会 表现 出 阻塞 方式 所 具有 的 大 部 分 行为 : 在 开发 者 看 来 ， 最 终结 
果 看 上 去 还 是 线程 只 能 事 行 地 访问 被 保护 内 存 。 











9.3.1 同步 的 代价 

同步 代码 对 性 能 有 两 个 方面 的 影响 。 其 一， 应 用 在 同步 块 上 所 花 的 时 间 会 影响 该 应 用 的 可 
伸缩 性 。 其 二, 获取 同步 锁 需 要 一 些 CPU 周期 ， 所 以 也 会 影响 性 能 。 

1. 同步 与 可 伸缩 性 

先 看 重要 的 ， 当 某 个 应 用 被 分 割 到 多 个 线程 上 运行 时 ， 加 速 比 (Speedup) 可 以 用 如 下 等 
式 定义 〈 即 Amdahl 定律 ) : 
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P 了 是 程序 并 行 运行 部 分 所 花 的 时 间 ，N 是 所 用 到 的 线程 数 (假定 每 个 线程 总 有 CPU 可 用 )。 
所 以 ， 如 果 20% 的 代码 是 串 行 执行 的 (这 意味 着 PP 是 80%)， 有 8 个 CPU 可 用 ， 则 可 以 
预计 存在 并 发 的 情况 下 加 速 比 为 3.33。 

从 这 个 等 式 可 以 看 出 一 个 关键 事实 ， 即 随 着 PP 值 的 降低 (也 就 是 说 ， 有 更 多 代码 是 串 行 执 
行 的 )， 引 入 多 个 线程 所 带 来 的 性 能 优势 也 会 随 之 下 降 。 限 制 串 行 块 中 的 代码 量 之 所 以 如 
此 重要 ,原因 就 在 于 此 。 在 这 个 例子 中 ， 有 8 个 CPU 可 用 ， 我 们 可 能 会 希望 速度 提升 8 
倍 。 但 是 在 只 有 20% 的 代码 串 行 执行 时 ， 引 入 多 个 线程 的 好 处 就 少 了 一 半 多 (只 增加 了 
3.33 倍 ) 。 

2. 锁定 对 象 的 开销 

除了 对 可 伸缩 性 的 影响 ， 同 步 操 作 本 身 还 有 两 个 基本 的 开销 。 

首先 是 获取 同步 锁 的 成 本 。 如 果 某 个 锁 没 有 被 争 用 ( 即 两 个 线程 没有 同时 尝试 访问 这 个 
锁 ) ， 那 这 方面 的 开销 会 相当 小 。synchronized 关键 字 和 CAS 指令 之 间 有 轻微 的 差别 。 非 
竞争 的 synchronized 锁 被 称 为 非 脱 胀 (uninflated) 锁 , 获取 非 膨 胀 锁 的 开销 在 几 百 纳 秒 的 
数量 级 。 非 竞争 的 CAS 代码 损失 会 更 小 。( 第 12 章 有 例子 对 比 了 其 差别 ， 可 以 参考 。) 

在 存在 竞争 的 条 件 下 ， 开 和 销 会 更 高 。 当 第 2 个 线程 尝试 访问 某 个 同步 锁 时 ， 可 以 预见 这 个 
锁 会 变 成 膨胀 的 (inflated)。 这 个 成 本 是 固定 的 ， 不 管 是 2 个 还 是 20 个 线程 要 访问 同一 个 
锁 ， 执 行 的 代码 量 是 一 样 的 。(20 个 线程 都 必须 执行 加 锁 人 代码， 当然 ， 成 本 会 随 线程 数 增 
加 ， 但 每 个 线程 所 花 的 时 间 是 固定 的 ， 这 是 重点 。) 

对 于 使 用 CAS 指令 的 代码 ， 当 存在 竞争 时 ， 开 销 是 无 法 预测 的 。CAS 原 语 基于 一 种 乐观 
的 策略 : 线程 设置 某 个 值 ， 执 行 一 些 代码 ， 然 后 确保 初始 值 没 有 被 修改 。 如 果 值 被 修改 
了 ， 那 么 基于 CAS 的 代码 必须 再 次 执行 这 些 代 码 。 在 最 坏 的 情况 下 ， 如 果 有 两 个 线程 ， 
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它们 都 在 修改 CAS 所 保护 的 值 ， 那 么 相互 就 会 看 到 另 一 个 线程 同时 也 在 修改 这 个 值 ， 就 
有 可 能 会 陷 和 无限 循环 。 不 过 在 实践 中 ， 两 个 线程 不 会 进入 这 样 的 无 限 循 环 ， 但 是 随 着 竞 
和 争 CAS 所 保护 值 的 线程 数 的 增加 ， 重 试 次 数 也 会 增加 。( 如 果 此 处 的 操作 是 只 读 的 ， 那 基 
于 CAS 的 保护 不 会 受 竞争 访问 的 影响 。 比 如 ， 不 管 有 多 少 线程 ， 它 们 都 可 以 同时 在 同一 
个 对 象 上 调用 AtomicLong.get() 方法 ， 而 不 用 因 竞 争 付出 任何 代价 。 这 是 使 用 基于 CAS 
的 设施 的 另 一 个 重要 优势 。) 

同步 的 第 2 个 开销 是 Java 特有 的 ， 依 赖 于 Java 内 存 模 型 (Java Memory Model) 。 和 C++ 
和 C 等 语言 不 同 ，Java 对 同步 相关 的 内 存 语 义 有 严格 的 保证 ， 而 且 该 保证 适用 于 基于 CAS 
的 保护 、 传 统 的 同步 以 及 volatile 关键 字 。 


















































例子 中 使 用 的 volatile 
Java 内 存 模型 对 本 书 中 的 两 个 例子 有 微妙 的 影响 。 第 2 章 探讨 了 编写 一 个 微 基 准 测试 
存在 的 问题 ; 最 终 的 解决 方案 需要 一 个 volatile 变量 来 保存 每 次 循环 选 代 的 结果 : 
public class MicroBenchmark { 
private volatile double answer; 
public static void main(String[] args) { 
long then = System.currentTimeMills(); 
for (int i = 0; i < nLoops; i++) { 
answer = compute(randomValue[i]); 


} 
long now = System.currentTimeMills(); 
System.out.printLn("ELapsed time:" + (now - then)); 


} 
编译 器 会 优化 代码 ， 它 可 以 展开 循环 ， 得 到 如 下 伪 代 码 : 


for (int i = 0; i < nLoops; i += 4) { 
answer = compute(randomValue[i]); 
answer = compute(randomValue[i + 1]); 
answer = compute(randomValue[i + 2]); 
answer = compute(randomValue[i + 3]); 


} 
如 果 JVM 把 answer 的 值 保 存在 某 个 寄存 器 中 ， 它 就 可 以 注意 到 寄存 器 被 写 了 多 次 ， 
但 是 没有 读 取 操作 (因为 其 他 线程 不 能 读 这 个 寄存 器 ) ， 因 此 ， 除 了 最 终结 果 ， 可 以 优 
化 掉 所 有 的 循环 计算 。 将 answer 用 volatile 定义 ， 确 保 JVM 必须 保存 每 次 循环 的 计 
算 结果 。JVM 不 能 优化 掉 这 些 计 算 ， 因 为 它 无 从 知道 是 否 会 有 其 他 线程 过 来 ， 从 主 内 
存 (main memory) 中 读 取 这 个 值 。 
类 似 地 ， 第 7 章 中 的 双重 检查 锁定 的 例子 中 也 需要 使 用 一 个 volatile 变量 : 


private volatile ConcurrentHashMap instanceChm; 





public void doOperation() { 
ConcurrentHashMap chm = instanceChm; 
if (chm == null) { 
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synchronized(this) { 
chm = instanceChm; 
if (chm == nuLL) { 
chm = new ConcurrentHashMap(); 
pv 填充 这 个 Map 
instanceChm = chm; 
} 
} 


在 这 个 例子 中 ，volatile 关键 字 实 现 了 两 个 目的 。 其 一 ,可 以 注意 到 ，HashMap 是 先 
用 一 个 局 部 变量 初始 化 的 ， 而 且 只 有 完全 初始 化 的 最 终 值 才 会 被 赋值 给 instanceChm 
变量 。 如 果 填 充 HashMap 的 代码 直接 使 用 instanceChm 这 个 实例 变量 ， 则 第 2 个 线程 
有 可 能 会 看 到 一 个 部 分 初始 化 的 Map。 其 二 ， 它 可 以 确保 当 Map 完全 初始 化 后 ， 其 他 
线程 可 以 立即 看 到 值 被 写 入 了 instanceChm 变量 。 








同步 的 目的 是 保护 对 内 存 中 值 (也 就 是 变量 ) 的 访问 。 如 第 4 章 所 讨论 的 ， 变 量 可 能 会 
乍 时 保存 在 寄存 器 中 ， 这 要 比 直接 在 主 内 存 中 访问 更 高 效 。 寄 存 器 值 对 其 他 线程 是 不 可 
见 的 ;当前 线程 修改 了 寄存 器 中 的 某 个 值 ， 必 须 在 某 个 时 机 把 寄存 器 中 的 值 刷新 到 主 内 
存 中 ， 以 便 其 他 线程 可 以 看 到 这 个 值 。 而 寄存 器 值 必 须 刷新 的 时 机 ， 就 是 由 线程 同步 控 
制 的 。 

实际 的 语言 会 非常 复杂 ， 最 简单 的 理解 是 ， 当 一 个 线程 离开 某 个 同步 块 时 ， 必 须 将 任何 修 
改过 的 值 刷 新 到 主 内 存 中 。 这 意味 着 进入 该 同步 块 的 其 他 线程 将 能 看 到 最 新 修改 的 值 。 类 
似 地 ， 基 于 CAS 的 保护 确保 操作 期 间 修改 的 变量 被 刷新 到 主 内 存 中 ， 标 记 为 volatile 的 
变量 ， 无 论 什么 时 候 被 修改 了 ， 总 会 在 主 内 存 中 更 新 。 

第 1 章 曾 提 到 ， 应 该 学 习 避 免 使 用 Java 中 性 能 不 太 高 的 构造 ， 即 使 这 看 上 去 像 “ 过 早 地 
优化 ”自己 的 代码 (事实 并 非 如 此 )。 下 面 循环 中 有 个 有 趣 的 案例 ， 而 且 是 一 个 现实 中 的 
例子 : 

Vector v; 


for (int i = 0; i < v.size(); i++) { 
process(v.get(i)); 
















































































3} 


在 生产 中 ， 我 们 发 现 这 个 循环 消耗 的 时 间 惊 人 。 比 较 合乎 逻辑 的 假设 是 ，process() 方法 
是 罪魁 祸首 。 但 事实 并 非 如 此 ， 问 题 也 不 在 于 size() 和 get() 方法 调用 本 身 (调用 已 经 被 
编译 器 内 联 了 )。Vector 类 的 size() 和 get() 方法 是 同步 的 ， 所 有 这 些 调用 所 需要 的 寄存 
器 刷新 是 很 大 的 性 能 问题 。 


这 段 代 码 之 所 以 不 理想 ， 还 有 其 他 一 些 原因 。 特 别 是 ， 在 某 个 线程 调用 size() 和 调用 
get() 的 中 间 时 间 内 ，Vector 对 象 的 状态 有 可 能 会 发 生变 化 。 如 果 在 此 之 间 ， 另 一 个 线程 
移 除 了 这 个 对 象 的 最 后 一 个 元 素 ， 则 get() 方法 将 抛 出 ArrayIndexOutOfBoundsException。 
除了 代码 中 的 语义 问题 ， 细 粒度 的 同步 也 是 较 差 的 选择 。 
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一 种 方案 是 将 大 量 连续 的 、 细 粒度 的 同步 调用 包含 在 一 个 同步 块 内 : 


synchronized(v) { 
for (int i = 0; i < v.size(); i++) { 
process(v.get(i)); 





} 

} 
如 果 process() 方法 执行 时 间 很 长 ， 并 不 能 很 好 地 解决 问题 ， 因 为 这 个 Vector 对 象 没 法 并 
行 处 理 。 另 一 个 备 选 方案 ， 复 制 并 分 割 Vector 对 象 可 能 是 必要 的 ， 这 样 就 可 以 借助 副本 来 
并 行 处 理 其 中 的 元 素 ， 不 过 其 他 线程 仍然 可 能 会 修改 原始 的 Vector 对象。 
寄存 器 刷新 的 影响 也 和 程序 运行 所 在 的 处 理 器 种 类 有 关 ; 有 大 量 供 线程 使 用 的 寄存 器 的 处 
理 器 与 较 简单 的 处 理 器 相 比 ， 将 需要 更 多 刷新 。 实 际 上 ， 这 段 代码 在 许多 环境 上 执行 了 很 
长 时 间 ， 而 没有 出 现 问 题 。 只 是 在 尝试 每 个 线程 有 大 量 寄存 器 可 用 、 基 于 SPARC 的 大 型 
机 时 ， 才 出 现 了 问题 。 
这 是 不 是 就 意味 着 ， 在 较为 小 型 的 环境 中 ， 不 太 可 能 会 遇 到 寄存 器 刷新 相关 的 问题 ?或许 
是 。 但 是 正如 多 核 CPU 在 简单 笔记 本 上 都 已 经 司空 见 惯 ， 配 备 了 更 多 缓存 和 寄存 器 的 更 
复杂 的 CPU 也 会 越 来 越 常见 ， 像 这 样 的 隐藏 问题 将 会 暴露 出 来 。 


快速 小 结 

1. 线程 同步 有 两 个 性 能 方面 的 代价 : 限制 了 应 用 的 可 伸缩 性 ， 以 及 获取 锁 
是 有 开销 的 。 

2. 同步 的 内 存 语义 、 基 于 CAS 的 设施 和 volatile 关键 字 对 性 能 可 能 会 有 
很 大 的 影响 ， 特 别 是 在 有 很 多 寄存 器 的 大 型 机 上 。 






























































9.3.2 ”避免 同步 
如 果 同 步 可 以 完全 避免 ， 那 加 锁 的 损失 就 不 会 影响 应 用 的 性 能 。 有 两 种 一 般 性 的 方式 可 以 
应 对 。 


其 一 是 在 每 个 线程 中 使 用 不 同 的 对 象 ， 这 样 访问 对 象 时 就 不 存在 竞争 了 。 为 保证 线程 安 
全 ， 很 多 Java 对 象 是 同步 的 ,但 是 它们 未 必需 要 共享 。 Randon 类 就 是 这 样 ， 第 12 音 有 一 
个 JIDK 中 的 例子 ， 即 使 用 线程 局 部 变量 开发 了 一 个 新 类 ， 以 避免 Randon 类 中 的 同步 。 


另 一 方面 ， 很 多 Java 对 象 创建 的 成 本 很 高 ， 或 者 是 会 占用 大 量 内 存 。 以 NumberFormat 类 
为 例 : 这 个 类 的 实例 不 是 线程 安全 的 ， 因 为 需要 构建 一 个 java.util.Locale 实例 ， 以 满足 
国际 化 需求 ， 这 使 得 构建 新 对 象 的 成 本 非常 高 。 一 个 程序 用 一 个 共享 的 全 局 NumberFormat 
实例 也 行 得 通 ， 但 是 对 这 个 共享 对 象 的 访问 需要 同步 。 


相反 ， 更 好 的 模式 是 使 用 ThreadLocal 对 象 


public class Thermometer { 
private static ThreadLocal<NumberFormat> nfLocal = new ThreadLocal<>() { 
public NumberFormat initialValue() { 
NumberFormat nf = NumberFormat.getInstance(); 
nf.setMinumumIntegerDigits(2); 
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return nf; 


} 


public String toString() { 
NumberFormat nf = nfLocal.get(); 
nf.format(...); 
} 
} 


通过 使 用 一 个 线程 局 部 变量 ， 总 的 对 象 数 得 到 了 限制 (使 对 GC 的 影响 最 小 化 )， 而 且 每 个 
对 象 都 不 会 受制 于 线程 竞争 。 


其 二 是 使 用 基于 CAS 的 末代 方案 。 在 茶 种 意义 上 ， 这 不 像 是 避免 同步 ， 更 像 是 解决 不 同 
的 问题 。 但 是 在 这 个 背景 之 下 ， 它 也 可 以 减少 同步 带 来 的 性 能 损失 ， 会 得 到 同样 的 效果 。 
基于 CAS 的 保护 和 传统 的 同步 之 间 ， 甚 差别 看 上 去 正 适合 用 微 基准 测试 来 测量 : 编写 比 
较 基 于 CAS 的 操作 和 传统 同步 方法 的 代码 应 该 并 不 繁琐 。 比 如 ，JDK 支持 很 方便 地 使 用 
基于 CAS 保护 的 计数 器 : AtomicLong 及 类 似 的 类 。 微 基准 测试 可 以 将 使 用 了 基于 CAS 包 
含 的 代码 与 传统 的 同步 做 对 比 。 例 如 如 下 代码 : 

AtomicLong al = new AtomicLong(0); 


public long doOperation() { 
return al.getAndIncrement(); 
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} 
对 比 以 下 代码 : 


private volatile long al = 0; 
public synchronized doOperation() { 
return aL++; 


} 


结果 表明 ， 使 用 微 基准 测试 是 行 不 通 的 。 如 果 只 有 一 个 线程 (也 就 不 存在 竞争 的 可 能 性 )， 
使 用 上 述 代 码 所 做 的 微 基准 测试 可 以 合理 地 估算 两 种 方案 在 无 竞争 环境 下 的 代价 (第 12 
章 也 引用 了 这 个 测试 结果 )。 但 是 对 于 存在 竞争 的 环境 ， 没 法 提供 任何 信息 (而且 如 果 代 
码 不 会 存在 竞 争 ， 那 么 一 开始 就 不 需要 考虑 线程 安全 了 )。 

仍然 使 用 前 面 的 两 个 代码 片段 ， 构 造 一 个 使 用 两 个 线程 的 微 基准 测试 ， 会 发 现在 共享 资源 
上 存在 极 大 的 竞争 。 这 也 并 非 现实 中 的 情况 ， 在 实际 的 应 用 中 ， 两 个 线程 总 是 同步 访问 共 
享 资源 的 情形 不 大 可 能 出 现 。 加 入 更 多 线程 只 是 引入 了 更 多 并 不 现实 的 竞争 情况 。 






























































竞争 与 volatile 变量 
开发 者 有 时 会 考虑 使 用 volatile 变量 来 减少 同步 ， 进 而 减少 其 应 用 中 的 竞争 。 结 果 
是 ， 对 volatile 变量 的 同步 写 会 非常 缓慢 。 
本 章 前 面 使 用 ForkJoinPool 的 例子 包含 着 一 个 专门 设计 的 循环 ， 即 通过 向 一 个 
volatile 变量 写 无 意义 的 值 来 消耗 大 量 CPU 周期 : 


for (int j = 0; j < d.length - i; j++) { 
for (int k = 0; k < 100; k++) { 
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dummy = j * k + ii 1/ dummy 是 一 个 volatile 变 量 ,因此 发 生 了 多 次 写 操作 
d[i] = dummy; 





} 

dummy 被 定义 为 这 段 代码 所 在 类 的 一 个 实例 变量 ， 尽 管 例子 中 有 4 个 线程 同步 执行 ， 
但 是 它们 操作 的 是 这 个 类 的 不 同 实例 。 因 此 ， 并 不 存在 围绕 dummy 变量 的 竞争 ， 例 子 
中 的 测试 在 16 秒 内 就 完成 了 。 

然而 ， 如 果 将 dummy 修改 为 static 变量 ,事情 就 会 发 生变 化 。 现 在 有 多 个 线程 同时 访 
问 这 个 volatile 变量 ， 同 样 的 测试 需要 209 秒 。 











如 第 2 章 所 讨论 的 ， 微 基准 测试 容易 大 大 高 估 所 测 问 题 中 同步 瓶颈 的 影响 。 希 望 这 里 的 讨 
论 也 能 说 明 这 一 点 。 如 有 果 将 本 节 中 的 代码 用 在 真实 的 应 用 中 ， 可 以 更 现实 地 对 比 两 种 方案 














的 得 失 。 
在 通常 情况 下 ， 在 比较 基于 CAS 的 设施 和 传统 的 同步 时 ， 可 以 使 用 如 下 指导 原则 。 


























全 不 使 用 保护 会 更 快 )。 








且 往 往 是 快 得 多 )。 





如 果 访 问 的 资源 存在 轻 度 或 适度 的 竞争 ， 那 么 基于 CAS 的 保护 要 快 于 传统 的 同步 (而 


如 果 访 问 的 是 不 存在 竞争 的 资源 ， 那 么 基于 CAS 的 保护 要 稍 快 于 传统 的 同步 (虽然 完 





。 随 着 所 访问 资源 的 竞争 越 来 越剧 烈 ， 在 某 一 时 刻 ， 传 统 的 同步 就 会 成 为 更 高 效 的 选择 


在 实践 中 ， 这 只 会 出 现在 运行 着 大 量 线程 的 非常 大 型 的 机 器 上 。 
。 当 被 保护 的 值 有 多 个 读 取 ， 但 不 会 被 写 人 时， 基于 CAS 的 保护 不 会 受 竞争 的 影响 。 





Fo 





Java 8 和 存在 竞争 时 的 原子 类 


java.util.concurrent.atomic 包 中 的 类 使 用 了 基于 CAS 的 原 语 ， 而 非 传 统 的 同步 。 因 
此 ， 与 编写 一 个 同步 方法 来 增加 某 个 Long 变量 相 比 ， 至 少 在 对 CAS 原 语 的 竞争 非常 
剧烈 之 前 ， 那 些 类 (比如 AtomicLong 类 ) 的 性 能 往往 要 更 好 。 


Java8 引 入 了 很 多 类 来 解决 这 个 问题 : 原子 的 加 法 器 (Adder) 和 累加 器 
(Accumulator， 比 如 LongAdder 类 )。 与 传统 的 原子 类 相 比 ， 这 些 类 的 可 伸缩 性 更 好 。 
当 多 个 线程 更 新 某 个 LongAdder 实例 时 ， 这 个 类 可 以 独立 保存 每 个 线程 所 做 的 更 新 。 
这 意味 着 ,这 些 线程 不 需要 等 待 其 他 线程 完成 其 操作 ; 相反 ， 操作 值 本 质 上 会 被 保存 
到 一 个 数组 中 ， 每 个 线程 都 可 以 快速 返回 。 之 后 ， 当 某 个 线程 尝试 获取 当前 值 时 ， 操 
作 值 会 被 加 起 来 或 是 累加 起 来 。 


在 竞争 很 少 或 者 没有 竞争 的 情况 下 ， 值 会 随 着 程序 的 运行 而 累加 ， 加 法 器 的 行为 和 传 
统 的 原子 类 一 样 。 在 竞争 非常 剧烈 的 情况 下 ， 更 新 会 更 快 ， 不 过 实例 会 使 用 更 多 内 存 
来 保存 值 的 数组 。 这 种 情况 下 ， 获 取 某 个 值 也 会 稍微 慢 些 ， 因 为 必须 处 理 数组 中 所 有 
挂 起 的 值 。 不 过 ， 即 使 在 竞争 非常 剧烈 的 情况 下 ， 与 传统 的 原子 类 相 比 ， 这 些 新 类 也 
通常 会 表现 得 更 好 。 
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最 后 ， 还 是 要 对 代码 所 运行 的 真实 生产 环境 做 大 量 的 测试 ， 这 是 什么 都 代 赫 不 了 的 : 
这 时 ， 0 明确 地 说 ， ei 更 好 。 0 


| 


快速 小 结 

1. 避免 对 同步 对 象 的 竞争 ， 是 缓解 同步 对 性 能 影响 的 有 效 方式 之 一 。 

2. 线程 局 部 变量 不 会 受 竞争 之 苗 ， 对 于 保存 实际 不 需要 在 多 个 线程 间 共 享 
的 同步 对 象 ， 它 们 非常 理想 。 

3， 对 于 确实 需要 共享 的 对 象 ， 基 于 CAS 的 工具 也 是 避免 传统 的 同步 的 方式 
sy 























9. 3. 3 伪 共 共享 


在 同步 可 能 的 影响 方面 ， 有 一 点 很 少 被 讨论 到 ， 就 是 伪 共 享 (false sharing)。 在 多 线程 程 
序 中 ， 这 个 问题 过 去 相当 隐蔽 ， 但 是 随 着 多 核 机 器 成 为 标 配 ， 很 多 同步 性 能 问题 更 明显 地 
浮 出 水 面 了 。 伪 共享 就 是 一 个 越 来 越 重要 的 问题 。 


伪 共 享 之 所 以 会 出 现 ， 跟 CPU 处 理 其 高 速 缓存 的 方式 有 关 。 考 虑 一 个 简单 类 中 的 数据 : 


public class DataHolder { 
public volatile long 11; 
public volatile Long 12; 
public volatile Long 13; 
public volatile long 14; 
































} 


这 里 的 每 个 Long 值 都 保存 在 毗邻 的 内 存 位 置 中 ， 比 如 ，11 可 能 保存 在 0xF20 这 个 内 存 位 
置 。 那 么 12 会 保存 在 0xF28，13 在 0xF2C， 以 此 类 推 。 当 程序 要 操作 12 时 ,会 有 一 大 块 
内 存 被 加 载 到 当前 所 用 的 某 个 CPU 核 上 ， 比 如 说 ， 从 0xF00 到 0xF80 的 128 字 节 。 如 果 
有 第 2 个 线程 要 操作 13， 则 会 加 载 同样 一 段 内 存 到 另 一 个 核 的 缓存 行 (cache line) 中 。 


大 多 数 情况 下 ， 像 这 样 加 载 邻接 的 值 是 有 意义 的 : 如 果 程 | 
变量 ， 则 很 有 可 能 会 访问 邻接 的 实例 变量 。 如 果 这 些 实例 变量 被 加 载 到 当前 核 的 高 速 缓存 
中 ， 内 存 访问 就 非常 快 ， 这 是 很 大 的 性 能 优势 。 


这 种 模式 的 缺点 是 ， 当 程序 更 新 本 地 缓存 中 的 某 个 值 时 ， 当 前 的 核 必须 通知 其 他 所 有 核 : 
这 个 内 存 被 修改 了 。 其 他 核 必须 作废 其 缓存 行 ， 并 重新 从 内 存 中 加 载 。 


我 们 来 看 看 ， 如 果 有 多 个 线程 大 量 使 用 DataHolder 类 会 发 生 什么 : 


public class ContendedTest extends Thread { 
private static class DataHolder { 
private volatile long L1 = 0; 

private volatile long L2 = 

private volatile long 13 = 

private volatile long 14 = 


















































0; 
0; 
0; 


} 
private static DataHolder dh = new DataHolder(); 
private static long nLoops; 
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public ContendedTest(Runnable r) { 
super(r); 


public static void main(String[] args) throws Exception { 
nLoops = Long.parseLong(args[0]); 
ContendedTest[] tests = new ContendedTest[4]; 
tests[0] = new ContendedTest(() -> { 
for (Long i = 0; i < nLoops; i++) { 
dh.L1 += i; 
} 
]); 
tests[1] = new ContendedTest(() -> { 
for (Long i = 0; i < nLoops; i++) { 
dh.L2 += i; 
} 


/1 tests[2] 和 tests[3] 类 似 …… 

Long then = System.currentTimeMillis(); 
for (ContendedTest ct : tests) { 
ct.start(); 


} 
for (ContendedTest ct : tests) { 


ct.join(); 
} 


Long now = System.currentTimeMillis(); 
System.out.println("Duration: " + (now - then) + " ms"); 


} 


结果 并 非 如 此 : 当 一 个 特定 的 线程 在 其 循环 中 写 volatile 值 时 ， 其 他 每 个 线程 的 缓存 行 都 
会 被 作废 ， 内 存 值 必须 重新 加 载 。 结 果 如 表 9-8 所 示 ， 性 能 随 着 线程 数 增多 而 变 差 了 。 


表 9-8: 存在 伪 共 享 时 ， 对 1 000 000 个 值 求 和 的 时 间 
线程 数 ”消耗 时 间 ( 秒 ) 









































1 7.1 

2 52.1 

3 91.0 

4 128.3 





严格 来 讲 ， 伪 共享 未 必 会 涉及 同步 (或 volatile) 变量 : 不 论 何 时 ，CPU 缓存 中 有 任何 数 
据 被 写 入 了 ， 其 他 保存 了 同样 范围 数据 的 缓存 都 必须 作废 。 然 而 ， 切 记 Java 内 存 模型 要 求 
数据 只 是 在 同步 原 语 (包括 CAS 和 volatile 构造 ) 结束 时 必须 写 入 主 内 存 。 所 以 这 种 情 
况 是 最 常见 的 。 在 这 个 例子 中 ， 如 果 long 变量 不 是 volatile 的 ， 那 么 编译 器 会 将 这 些 值 
放 到 寄存 器 中 ， 不 管 有 多 少 个 线程 ， 测 试 将 在 大 约 7.1 秒 内 执行 完毕 。 

很 明显 ， 这 是 个 极端 的 例子 ， 但 是 它 提 出 了 一 个 问题 : 如 何 检测 并 纠正 伪 共 享 ? 遗憾 的 
是 ， 并 没有 清晰 、 完 整 的 答案 。 在 第 3 章 所 讨论 的 标准 工具 集中 ， 没 有 哪个 能 解决 伪 共 
享 ， 因 为 这 需要 与 处 理 器 架构 相关 的 非常 专门 的 知识 。 
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如 果 幸 运 的 话 ， 目 标 处 理 器 的 广 商会 提供 用 于 诊断 伪 共 享 的 工具 。 比 如 ，Intel 就 有 一 个 
叫 作 VTune 的 程序 ， 可 以 通过 检查 缓存 未 命中 事件 来 检测 伪 共享 。 特 定 的 原生 分 析 器 
(profiler) 可 能 会 提供 给 定 代码 行 的 每 指令 周期 数 (Cycles Per Instruction，CPI) 的 相关 信 
息 ; 如 果菜 个 循环 内 的 一 条 简单 指令 的 CPI 非常 高 ， 可 能 预示 着 代码 正在 等 待 将 目标 内 存 
的 信息 重新 加 载 到 CPU 缓存 中 。 


男 外， 检测 伪 共 享 还 需要 一 些 直觉 和 实验 。 如 果 正 常 的 分 析 表 明 ， 某 个 特定 循环 耗 时 惊 
人 ， 则 需要 检查 这 个 循环 ， 看 看 是 否 有 可 能 循环 内 有 多 个 线程 正在 访问 非 共享 变量 。( 即 
便 很 多 人 认为 性 能 调 优 更 像 是 艺术 而 非 科 学 ，Intel VTune 手册 也 写 道 :“ 避 免 伪 共 享 的 主 
要 手段 就 是 代码 检查 ”。) 


要 阻止 伪 共 享 ， 需要 对 代码 做 些 修改 。 理 想 的 情况 是 所 涉及 的 变量 不 会 频繁 写 入 。 在 前 面 
的 例子 中 ， 计 算 可 以 使 用 局 部 变量 进行 ， 只 有 最 终结 果 才 写 回 到 DataHolder 变量 。 如 有 果 随 
后 的 写 和 次数 比较 少 ， 就 不 太 可 能 出 现 对 缓存 行 的 竞争 ， 即 使 所 有 4 个 线程 在 循环 结束 时 
同时 更 新 其 结果 ， 也 不 会 影响 性 能 。 


第 2 个 可 能 的 方案 是 填充 (padding) 相关 变量 ， 以 免 其 被 加 载 到 相同 的 缓存 行 中 。 如 果 目 
标 CPU 有 个 128 字 节 的 缓存 ， 那 么 像 下 面 这 样 填充 可 能 会 有 效果 (也 可 能 没有 ) : 


public class DataHolder { 
public volatile Long li1; 
pubilc Long[] dummy1 = new long[128 / 8]; 
public volatile Long 12; 
pubilc Long[] dummy2 = new long[128 / 8]; 
public volatile Long 13; 
pubilc Long[] dummy3 = new long[128 / 8]; 
public volatile long 14; 













































































} 


像 这 样 使 用 数组 或 许 行 不 通 ， 因 为 JVM 可 能 会 重新 安排 那些 实例 变量 的 布局 ， 以 便 所 有 
的 数组 紧 挨 在 一 起 ， 于 是 所 有 的 Long 变量 就 仍然 会 紧 挨 着 了 。 使 用 基本 类 型 的 值 来 填充 该 
结构 ， 行 之 有 效 的 可 能 性 更 大 ,但 是 考虑 到 所 需 的 变量 数目 ， 并 不 现实 。 

使 用 填充 来 防止 伪 共 享 还 有 其 他 问题 。 填 充 的 大 小 很 难 预测 ， 因 为 不 同 CPU 的 缓存 大 小 
也 不 同 。 而 且 填 充 很 明显 会 增 大 问题 中 的 实例 ， 这 对 垃圾 收集 器 影响 很 大 (当然 也 取决 于 
所 需 的 实例 数 )。 不 过 ， 如 果 没 有 算法 上 的 改进 方案 ， 填 充 数据 有 时 会 具有 明显 的 优势 。 


























@Contended 注解 
Java 8 有 个 新 特性 ， 即 能 够 减少 指定 字段 (JEP 142) 上 的 竞争 。 其 实现 方式 是 使 用 一 
个 新 的 注解 (@sun.misc.Contended) 来 标记 应 该 由 JVM 自动 填充 的 变量 。 
这 个 注解 所 属 的 包 非 常 重 要 : 尽管 这 是 一 个 JDK 增 强 提案 (JDK Enhancement 
Proposal，JEP) 特性 ， 但 它 主要 是 供 JVM 自身 使 用 。 这 个 注解 是 否 会 进入 未 来 的 版 
本 (即使 会 ， 其 行为 是 否 会 保持 不 变 ) ， 并 没有 保证 。 
如 果 不 能 通过 其 他 任何 手段 解决 伪 共 享 ， 可 以 考虑 使 用 该 注解 。 一 个 好 处 是 ， 因 为 
JVM 了 解 其 运行 所 在 CPU 的 架构 ， 所 以 可 以 自动 算出 需要 填充 的 大 小 ; 然而 当 AMD 











210 | 第 9 章 


(或 是 无 论 哪 家 厂商 ) 推出 配备 了 新 的 缓存 行 大 小 的 新 处 理 器 时 ， 较 老 的 JVM 只 能 猜 
测 需 要 填充 的 大 小 是 多 少 。 和 所 有 的 填充 解决 方案 一 样 ， 使 用 这 个 注解 会 大 大 增加 
标 实例 的 大 小 ， 所 以 要 谨慎 使 用 。 


默认 情况 下 ,除了 JDK 内 部 的 类 ，JVM 会 忽略 该 注解 。 要 支持 应 用 代码 使 用 该 注解 ， 
应 该 使 用 -XX: -RestrictContended 标志 ， 它 默认 为 true (意味 着 该 注解 仅 限 于 JDK 类 
使 用 ) 。 另 一 方面 ， 要 关 掉 JDK 中 的 自动 填充 ， 应 该 设置 -XX:-EnableContended 标志 ， 
它 也 默认 为 true。 这 将 减 小 Thread 和 ConcurrentHashMap 类 的 大 小 。 








快速 小 结 
1， 对 于 会 频繁 地 修改 volatile 变量 或 退出 同步 块 的 代码 ， 伪 共享 对 性 能 影 
响 很 大 。 





2. 伪 共 享 很 难 检测 。 如 果 某 个 循环 看 上 去 非常 耗 时 ， 可 以 检查 该 代码 ， 看 
看 是 否 与 伪 共 享 出 现时 的 模式 相 匹 配 。 

3. 最 好 通过 将 数据 移 到 局 部 变量 中 、 稍 后 再 保存 来 避免 伪 共 享 。 作 为 一 种 
替代 方案 ， 有 时 可 以 使 用 填充 将 冲突 的 变量 移 到 不 同 的 缓存 行 中 。 


9.4 JVM 线 程 调 优 


JVM 的 某 些 调 优 策略 可 以 影响 线程 和 同步 的 性 能 


9.4.1 调节 线程 栈 大 小 

当空 间 非 常 珍贵 时 ， 可 以 调节 线程 所 用 的 内 存 。 每 个 线程 都 有 一 个 原生 栈 ， 操 作 系 统 用 它 
来 保存 该 线程 的 调用 栈 信息 〈 比 如 ，main() 方法 调用 了 calculate() 方 法， 而 calculate() 
方法 又 调用 了 add() 方法 ， 栈 会 把 这 些 信 息 记录 下 来 )。 

不 同 的 JVM 版 本 ， 甚 线程 栈 的 默认 大 小 也 有 所 差别 ， 具 体 如 表 9-9 所 示 。 一 般 而 言 ， 如 
果 在 32 位 JVM 上 有 128 KB 的 栈 , 在 64 位 JVM 上 有 256 KB 的 栈 ， 很 多 应 用 实际 就 可 以 
运行 了 。 如 果 这 个 值 设置 得 大小， 潜在 的 缺点 是 ， 当 某 个 线程 的 调用 栈 非常 大 时 ， 会 抛 出 


StackOverf LowError, 


表 9-9: 种 JVM 的 默认 栈 大 小 



































操作 系统 32 位 64 位 
Linux 320 KB 1 MB 
Mac OS N/A 1 MB 
Solaris Sparc 512 KB 1 MB 
Solaris X86 320 KB 1 MB 
Windows 320 KB 1 MB 





在 64 位 的 JVM 中 ， 除 非 物理 内 存 非常 有 限 ， 并 且 较 小 的 栈 可 以 防止 耗 尽 原生 内 存 ， 否 则 
没有 理由 设置 这 个 值 。 另 一 方面 ， 在 32 位 的 JVM 上 ， 使 用 较 小 的 栈 〈 比 如 128 KB) 往往 
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是 个 不 错 的 选择 ， 因 为 这 样 可 以 在 进程 空间 中 释放 部 分 内 存 ， 使 得 JVM 的 堆 可 以 大 一 些 。 














耗 尽 原生 内 存 


没有 足够 的 原生 内 存 来 创建 线程 ， 也 可 能 会 抛 出 0utofMemoryError。 这 意味 着 可 能 
现 了 以 下 3 种 情况 之 一 。 


1. 在 32 位 的 JVM 上， 进程 所 占 空 间 达 到 了 4 GB 的 最 大 值 (或 者 小 于 4 GB， 取 
决 于 操作 系统 ) 。 
2. 系统 实际 已 经 耗 尺 了 虚拟 内 存 。 
3. 在 Unix 风格 的 系统 上 ， 用 户 创建 的 进程 数 已 经 达到 配额 限制 。 这 方面 单独 的 线 
程 会 被 看 作 一 个 进程 。 
减少 栈 的 大 小 可 以 克服 前 两 个 问题 ， 但 是 对 第 三 个 问题 没什么 效果 。 遗 憾 的 是 ， 我 们 
无 法 从 JVM 报错 看 出 到 底 是 哪 种 情况 ， 只 能 在 遇 到 错误 时 依次 排查 。 











要 改变 线程 的 栈 大 小 ， 可 以 使 用 -Xss=W 标 志 (例如 -Xss=256k)。 


快速 小 结 

1. 在 内存 比较 稀缺 的 机 器 上 ， 可 以 减少 线程 栈 大 小 。 

2. 在 32 位 的 JVM 上 ， 可 以 减少 线程 栈 大 小 ， 以 便 在 4 GB 进程 空间 限制 的 
条 件 下 ， 稍 稍 增加 堆 可 以 使 用 的 内 存 。 


9.4.2 ”偏向 锁 


当 锁 被 争 用 时 ，JVM (和 操作 系统 ) 可 以 选择 如 何 分 配 锁 。 锁 可 以 被 公平 地 授予 ， 每 个 线 
程 以 轮转 调度 方式 (round-robin) 获得 锁 。 还 有 一 种 方案 ， 即 锁 可 以 偏向 于 对 它 访 问 最 为 
频繁 的 线程 。 


偏向 锁 背 后 的 理论 依据 是 ， 如 果 一 个 线程 最 近 用 到 了 某 个 锁 ， 那 么 线程 下 一 次 执行 由 同一 
把 锁 保 护 的 代码 所 需 的 数据 可 能 仍然 保存 在 处 理 器 的 缓存 中 。 如 果 给 这 个 线程 优先 获得 这 
把 锁 的 权利 ， 缓 存 命中 率 可 能 就 会 增加 。 如 果实 现 了 这 点 ， 性 能 会 有 所 改进 。 但 是 因为 偏 
向 锁 也 需要 一 些 矫 记 信息 ， 故 有 时 性 能 可 能 会 更 糟 。 

特别 是 ， 使 用 了 某 个 线程 池 的 应 用 (包括 大 部 分 应 用 服务 器 )， 在 偏向 锁 生效 的 情况 下 ， 性 
能 会 更 糟糕 。 在 那 种 编程 模型 下 ， 不 同 的 线程 有 同等 机 会 访问 和 争 用 的 锁 。 对 于 这 些 类 应 用 ， 
使 用 -XX: -UseBiasedLocking 选项 禁用 偏向 锁 ， 会 稍稍 改进 性 能 。 偏 向 锁 默 认 是 开局 的 。 


9.4.3 自 旋 锁 

在 处 理 同步 锁 的 竞争 问题 时 ，JVM 有 两 种 选择 。 对 于 想 要 获得 锁 而 陷 和 人 阻塞 的 线程 ， 可 
以 让 它 进 入 忙 循 环 ， 执 行 一 些 指 令 ， 然 后 再 次 检查 这 个 锁 。 也 可 以 把 这 个 线程 放 入 一 个 队 
列 ， 在 锁 可 用 时 通知 它 (使 得 CPU 可 供 其 他 线程 使 用 ) 。 

如 果 多 个 线程 竞争 的 锁 的 被 持 有 时 间 较 短 ， 那 忙 循 环 (所 谓 的 线程 自 旋 ) 就 比 另 一 个 方案 
快 得 多 。 如 果 被 持 有 时 间 较 长 ， 则 让 第 二 个 线程 等 待 通 知 会 更 好 ， 而 且 这 样 第 三 个 线程 也 
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有 机 会 使 用 CPU。 

JVM 会 在 这 两 种 情况 间 寻 求 合理 的 平衡 ， 自 动 调整 将 线程 移交 到 待 通知 队列 中 之 前 的 自 旋 
时 间 。 有 些 参数 可 以 调整 自 旋 时 间 ， 但 大 部 分 是 实验 性 的 ， 都 有 可 能 会 发 生变 化 ， 即 使 是 
极 小 的 版 本 更 新 。 
如 果 想 影响 JVM 处 理 自 旋 锁 的 方式 ， 唯 一 合理 的 方式 就 是 让 同步 块 尽 可 能 短 ， 当 然 不 管 
什么 情况 ， 都 是 应 该 这 人 么 做 的 。 这 样 可 以 限制 与 程序 功能 没有 直接 关系 的 自 旋 的 量 ， 也 降 
低 了 线程 进入 通知 队列 的 机 会 。 


















































UseSpinning 标志 
之 前 的 Java 版 本 支持 一 个 -XX:+UseSpinning 标志 ， 该 标志 可 以 开启 或 关闭 自 旋 锁 。 在 
Java 7 及 更 高 版 本 中 ， 这 个 标志 已 经 没 用 了 : 自 旋 锁 无 法 禁用 。 不 过 考虑 到 向 后 兼容 ， 
Java 7 到 7u40 这 些 版 本 的 命令 行 参 数 仍 然 接受 该 标志 ， 但 是 不 执行 任何 操作 。 有 点 奇 
怪 的 是 ， 这 个 标志 的 默认 值 会 报告 为 faLse， 即 使 自 旋 锁 一 直 在 发 挥 作用 。 


从 Java7u40 (以 及 Java8 中 ) 开始 ，Java 不 再 支持 该 标志 ， 使 用 这 个 标志 会 报错 。 











9.4.4 ”线程 优先 级 


每 个 Java 线程 都 有 一 个 开发 者 定义 的 优先 级 ， 这 是 应 用 提供 给 操作 系统 的 一 个 线索 ， 用 
以 说 明 特 定 线 程 在 其 眼中 的 重要 程度 。 如 果 有 不 同 线程 处 理 不 同 任务 ， 你 可 能 会 认为 ， 可 
以 以 让 其 他 任务 在 优先 级 较 低 的 线程 上 运行 为 代价 ， 使 用 线程 优先 级 来 改进 特定 任务 的 性 
能 。 遗 性 的 是 ， 实 际 不 会 这 么 有 用 。 
操作 系统 会 为 机 器 上 运行 的 每 个 线程 计算 一 个 “当前 ”(current) 优先 级 。 当 前 优先 级 会 考 
虑 Java 指派 的 优先 级 ， 但 是 还 会 考虑 很 多 其 他 的 因素 ， 其 中 最 重要 的 一 个 是 ， 自 线 程 上 次 
运行 到 现在 所 持续 的 时 间 。 这 可 以 确保 所 有 的 线程 都 有 机 会 在 某 个 时 间 点 运行 。 不 管 优先 
级 高 低 ， 没 有 线程 会 一 直 处 于 “饥饿 ”状态 ， 等 待 访 问 CPU。 

这 两 个 因素 之 间 的 平衡 会 随 操作 系统 的 不 同 而 有 所 差异 。 在 基于 Unix 的 系统 上 ， 整 体 优 
先 级 的 计算 主要 取决 于 线程 上 次 运行 到 现在 所 持续 的 时 间 ，Java 层 指定 的 优先 级 影响 微 乎 
其 微 。 在 Windows 系统 上 ， 在 Java 层 指定 的 优先 级 较 高 的 线程 ， 往 往 会 比 优先 级 较 低 的 
线程 运行 更 久 ;但 即便 优先 级 较 低 ， 那 些 线程 也 会 得 到 相对 公平 的 执行 时 间 。 

不 过 ， 不 管 是 哪 种 情况 ， 我 们 都 不 能 依赖 线程 的 优先 级 来 影响 其 性 能 。 如 果 某 些 任务 比 其 
他 任务 更 重要 ， 就 必须 使 用 应 用 层 逻 辑 来 划分 优先 级 。 

在 某 种 程度 上 ， 可 以 通过 将 任务 指派 给 不 同 的 线程 池 并 修改 那些 池 的 大 小 来 解决 。 第 10 
章 有 一 个 这 样 的 例子 。 


9.5 监控 线程 与 锁 


在 对 应 用 中 的 线程 和 同步 的 效率 作 性 能 分 析 时 ， 有 两 点 需要 注意 : 总 的 线程 数 〈 既 不 能 
大 ， 也 不 能 太 小 ) 和 线程 花 在 等 待 锁 或 其 他 资源 上 的 时 间 。 
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9.5.1 


在 某 个 时 间 点 ， 
会 使 用 38 个 线程 ， 
栈 信息 ， 


查看 线程 


几乎 所 有 的 JVM 监控 工具 都 提供 
jconsole 这 样 的 交互 式 工 具 还 能 显 
可 以 实时 观察 程序 执行 期 间 线 程 数 的 增 减 。 


应 用 (NetBeans) 最 多 使 用 了 45 个 线程 。 图 中 刚 开 始 有 一 个 爆发 点 ， 最 多 























后 来 线程 数 稳定 在 30 到 31 之 间 。 





如 图 所 示 ，Java2D Disposer 线程 正在 某 个 引用 队列 的 锁 上 等 





t 了 线程 数 (以 及 这 些 线程 在 干什么 
示 JVM 内 线程 的 状态 。 在 jconsole 的 Threads 面板 上 ， 
图 9-2 是 一 个 例子 。 


) 相关 的 信息 。 像 








jconsole 可 以 打印 每 个 单独 线程 的 
待 。 
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图 9-2: JConsole 中 的 活跃 线程 视图 


9.5.2 ”查看 阻塞 线程 


如 果 想 了 解 应 用 中 有 什么 线程 在 运行 这 类 高 层 视 医 





线程 在 做 人 
要 使 用 分 析 器 
而 且 分 析 器 





(profiler), 





区 
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体 执行 效果 的 代码 区 域 。 


诊断 阻塞 的 线程 更 为 困 
行 在 多 CPU 系统 上 








当代 码 运 
断 的 方法 。 方 法 之 一 
自 


vG 9 


这 就 可 以 看 到 线程 被 








难 ， 尽 管 这 类 信息 











还 是 使 用 分 析 器 
阻塞 的 时 间 点 。 第 











， 实 时 线 
| 么 ， 实 际 上 没有 提供 任何 数据 。 要 确定 线程 的 CPU 周期 都 耗 在 哪儿 了 ， 
章 曾 讨论 过 。 利 用 分 析 器 
一 般 非 常 成 熟 ， 可 以 指出 那些 能 够 通过 更 好 的 算法 、 更 好 的 代码 选择 来 加 速 整 


对 应 用 的 整体 执 和 
， 但 没有 利用 起 所 有 可 用 的 CPU 时 。 一 般 有 三 种 执行 此 类 诊 
因为 大 部 分 分 析 工 具 都 会 提供 线程 执行 的 时 间 线 信 

名 3 章 也 给 出 


监控 会 很 有 用 ， 但 至 于 那些 
则 需 


可 以 很 好 地 观察 哪些 线程 在 执行 。 





了 而 言 往往 更 为 重要 ， 特 别 是 





了 一 个 例子 。 





1. 被 阻塞 线程 与 JFR 

要 了 解 线程 是 何 时 被 阻塞 的 ， 迄 今 为 止 最 好 的 方式 是 使 用 可 以 穷 探 JVM 内 部 、 并 且 可 以 
在 较 低 的 层次 确定 线程 被 阻塞 时 间 的 工具 。Java 飞行 记录 器 (Java Flight Recorder, JFR) 
就 是 一 款 这 样 的 工具 ， 第 3 章 已 经 介绍 过 。 我 们 可 以 深入 到 JFR 捕获 的 事件 中 ， 并 寻找 那 
些 引 发 线程 阻塞 的 事件 (比如 等 待 获取 某 个 Monitor， 或 是 等 待 读 写 Socket， 不 过 写 的 情 
况 较 为 少见 )。 

借助 JMC 的 直方 图 面板 可 以 很 方便 地 查看 这 些 事 件 ， 如 图 9-3 所 示 。 




















Histogram 加 
Event Type' | Java Application/ Java Monit¢ $ | Croup By | Monitor Class = Show Only Operative Set 
Group By: Total Average Count 
© java.utiLHashMap | 5s103ms | 31ms310bhs | 163 
© java.lang.Object | 329 ms 510 hsi 27ms 459ps| 12 
© org.apache.jasper.servlet.JspServletWrapper | 257ms803bhs | 28ms644hs 9 
© javalang.reFReFerenceSLock | 147ms619hs| 29ms523 bs| 5 

Trace5 回 
Stack Trace Sample Count 
v ws suN.awt,AppContext.get(Object) | 163 

vs suN.awt.AppContext$6.get(Object) | 163 
-~ java.utiL TimeZone,getDefaultiInAppContext() 163 
vs java.utilL TimeZone.getDefaultRef() | 163 
v % java.util. Date.normalize() | 163 
vs java.utiLDate.toString() | 163 
*s javalang.String.valueOF(Objecb) | 163 
内 Overview | 号 Log| 号 Graph | 网 Threads | s Stack Traces 岂 Histogram| 








图 9-3; JFR 中 被 某 个 Monitor 阻塞 的 线程 


在 这 个 示例 中 ， 与 sun.awt.AppContext.get() 方法 中 的 HashMap 关联 的 锁 被 竞争 了 163 次 
(超过 66 秒 )， 使 得 所 测量 的 请 求 响应 时 间 平 均 增 加 了 31 毫秒 。 栈 轨迹 表明 竞争 源 于 JSP 
写 java.util.Date 对 象 的 方式 。 要 改进 这 段 代码 的 可 伸缩 性 ， 可 以 使 用 线程 局 部 的 日 期 格 
式 化 对 象 ， 而 不 是 简单 地 调用 日 期 对 象 的 tostring() 方法 。 


从 直方 图 中 选择 阻塞 事件 ， 然 后 检查 调用 代码 ， 这 个 流程 适合 任何 阻塞 事件 ， 这 款 与 JVM 
紧密 集成 的 工具 使 这 一 流程 就 成 为 可 能 。 

2. 被 阻塞 线程 与 ]Stack 

如 果 没 有 商用 的 JVM 可 用 ， 替 代 方 案 之 一 是 从 程序 中 拿 到 大 量 的 线程 栈 并 加 以 检查 。 
jstack、jcnd 和 其 他 工具 可 以 提供 虚拟 机 中 每 个 线程 状态 相关 的 信息 ， 包 括 线程 是 在 运 
行 、 等 待 锁 还 是 等 待 IO 等 。 对 于 确定 应 用 中 正在 进行 的 是 什么 ， 这 可 能 非常 有 用 ， 不 过 
输出 中 也 有 很 多 我 们 不 需要 的 。 

在 查看 线程 栈 时 ， 有 两 点 需要 注意 。 第 一 ，JVM 只 能 在 特定 的 位 置 (safepoint， 安 全 点 ) 
转 储 出 一 个 线程 的 栈 。 第 二 ， 每 次 只 能 针对 一 个 线程 转 储 出 栈 信息 ， 所 以 可 能 会 看 到 彼 
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此 冲突 的 信息 : 比如 两 个 线程 持 有 同一 个 锁 ， 或 者 一 个 线程 正在 等 待 的 锁 并 未 被 其 他 线 
程 持 有 。 











JStack 分 析 器 
人 们 很 容易 认为 ， 连 续 快 速 地 抓 取 多 个 栈 转 储 信 息 ， 就 能 将 其 用 作 一 个 简单 快速 的 分 
析 器 。 毕 竞 ， 采样 分 析 器 本 质 上 就 是 这 么 工作 的 : 周期 性 地 探测 线程 的 执行 栈 ， 基 于 
这 些 信息 推断 在 方法 上 花 了 多 少时 间 。 但 是 在 安全 点 和 不 一 致 的 快照 之 间 ， 这 么 做 不 
是 很 有 效 ; 通过 查看 这 些 线 程 栈 ， 有 时 可 以 从 较 高 的 层次 上 大 概 获知 执行 成 本 较 高 的 
方法 ， 但 是 一 款 真 正 的 分 析 器 提供 的 信息 要 精确 得 多 。 


























从 线程 栈 可 以 看 出 线程 阻塞 的 严重 程度 (因为 阻塞 的 线程 已 经 在 某 个 安全 点 上 )。 如 果 有 
连续 的 线程 转 储 信息 表明 大 量 的 线程 阻塞 在 某 个 锁 上 ， 那 么 就 可 以 断定 这 个 锁 上 有 严重 的 
竞争 。 如 果 有 连续 的 线程 转 储 信息 表明 大 量 的 线程 在 阻塞 等 待 JO， 则 可 以 断定 需要 优化 
正在 进行 的 IO 读 操 作 〈 比 如 ， 如 果 是 数据 库 调 用 ， 应 该 优化 SQL 执行 ， 或 者 是 优化 数据 
库 本 身 ) 。 


在 本 书 的 在 线 示例 中 ， 有 一 个 比较 基本 的 jstack 输出 解析 器 ， 可 以 从 一 个 或 多 个 线程 转 储 
中 总 结 出 所 有 线程 的 状态 。jstack 的 输出 有 个 问题 ， 即 不 同 版 本 之 间 可 能 会 有 变化 ， 所 以 
开发 一 个 健壮 的 解析 器 比较 困难 。 不 能 保证 这 个 解析 器 可 以 不 加 修改 地 应 用 于 你 所 使 用 的 
特定 的 JVM。 


jstack 解析 器 的 基本 输出 像 下 面 这 样 : 


% jstack pid > jstack.out 
% java ParseJStack jstack.out 
[Partial output...] 
Threads in start Running 
8 threads in java.lang.Throwable.getStackTraceElement(Native 
Total Running Threads: 8 















































Threads in state Blocked by Locks 
41 threads running in 
com.sun.enterprise. loader .EJBCLlassLoader .getResourceAsStream 
(EJBClassLoader .java:801) 
Total Blocked by Locks Threads: 41 


Threads in state Waiting for notify 
39 threads running in 
com.sun.enterprise.web.connector .grizzly.LinkedListpipeline.getTask 
(LinkedListPpipeline.java:294) 
18 threads running in System Thread 
Total Waiting for notify Threads: 74 


Threads in state Waiting for I/0 read 
14 threads running in com.acme.MyServlet.doGet(MyServlet.java:603) 
Total Waiting for I/0 read Threads: 14 


解析 器 聚合 了 所 有 的 线程 ， 可 以 显示 处 于 各 种 状态 的 线程 分 别 有 多 少 。8 个 线程 正在 运行 
(它们 碰巧 正在 获取 栈 轨迹 信息 ， 这 个 操作 成 本 非常 高 ， 最 好 避免 )。 








A 
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41 个 线程 被 某 个 锁 阻 塞 了 。 所 报告 的 方法 是 栈 轨 迹 中 第 一 个 非 JDK 方法 ， 在 这 个 例子 中 
是 GlassFish 的 EJBCLassLoader .getResourceAsStream()。 下 一 步 就 是 考虑 栈 轨 迹 信 息 ， 搜 
索 这 个 方法 ， 看 看 线程 是 阻塞 到 什么 资源 上 了 。 


在 这 个 例子 中 ， 所 有 线程 都 被 阻塞 了 ， 在 等 待 读 取 同 一 个 JAR 文件 ， 这 些 线程 的 栈 轨 迹 表 
明 ， 所 有 调用 都 来 自 实 例 化 新 SAX 实例 的 操作 。 如 第 10 章 所 讨论 的 ，SAX 解析 器 可 以 通 
过 列 出 应 用 JAR 文件 中 manifest 文件 内 的 资源 来 动态 定义 ， 这 意味 着 JDK 必须 搜索 整个 
类 路 径 来 寻找 那些 条 目 ， 直 到 找到 应 用 想 使 用 的 一 个 (或 者 是 找 不 到 ， 回 到 系统 解析 器 ) 。 
因为 读 取 这 个 JAR 文件 需要 一 个 同步 锁 ， 所 以 所 有 尝试 创建 一 个 解析 器 的 线程 最 终 都 会 
竞争 同一 个 锁 ， 这 会 极 大 影响 应 用 的 吞吐 量 。( 第 10 章 建 议 设置 -Djavax.xml.parsers. 
SAXParserFactory 属性 来 避免 这 些 查 找 ， 原 因 就 在 于 此 。) 


更 重要 的 一 点 是 ， 大 量 被 阻塞 的 线程 会 成 为 影响 性 能 的 问题 。 不 管 阻塞 的 根源 是 什么 ， 都 
要 对 配置 或 应 用 加 以 修改 ， 以 避免 之 。 


等 待 通知 的 线程 又 是 什么 样 的 情况 呢 ? 那些 线程 在 等 待 其 他 事件 发 生 。 它 们 往往 是 在 某 个 
池 中 ， 等 待 任 务 就 绪 ( 比 如， 上 面 输出 中 的 getTask() 方法 在 等 待 请 求 ) 这 类 通知 。 系 统 
线程 会 在 处 理 像 RMI 分 布 式 GC 或 JMX 监控 这 样 的 事情 ， 它 们 以 栈 中 只 有 JDK 类 这 类 线 
程 的 形式 出 现在 jstack 的 输出 中 。 这 些 条 件 不 一 定 表明 有 性 能 问题 ， 对 这 些 线程 而 言 ， 等 
待 通知 是 正常 现象 。 

如 果 线 程 正在 进行 的 是 阻塞 式 IO 读 取 (通常 是 socketRead6() 方法 ) ， 也 会 导致 问题 。 这 
也 会 影响 吞吐 量 : 线程 正在 等 待 其 个 后 端 资源 回复 其 请 求 。 这 时 候 应 该 检查 数据 库 或 其 他 
后 端 资源 的 性 能 。 

































































快速 小 结 
1. 利用 系统 提供 的 线程 基本 信息 ， 可 以 对 正在 运行 的 线程 的 数目 有 个 大 致 
了 解 。 


2. 就 性 能 分 析 而 言 ， 当 线程 阻塞 在 某 个 资源 或 WO 上 时 ， 能 够 看 到 线程 的 
相关 细节 就 显得 比较 重要 。 

3. JFR 使 得 我 们 可 以 很 方便 地 检查 引发 线程 阻塞 的 事件 。 

4 利用 jstack， 一 定 程 度 上 可 以 检查 线程 是 阻塞 在 什么 资源 上 。 














9.6 ”小结 

理解 线程 如 何 运 作 ， 可 以 获得 很 大 的 性 能 优势 。 不 过 就 线程 的 性 能 而 言 ， 其 实 没 有 太 多 可 
以 调 优 的 : 可 以 修改 的 JVM 标志 相当 少 ， 而 且 那 些 标志 的 效果 也 很 有 限 。 

相反 ， 较 好 的 线程 性 能 是 这 么 来 的 : 遵循 管理 线程 数 、 限 制 同步 带 来 的 影响 的 一 系列 最 佳 
实践 原则 。 借 助 适当 的 剖析 工具 和 锁 分 析 工 具 ， 可 以 检查 并 修改 应 用 ， 以 避免 线程 和 锁 的 
问题 给 性 能 带 来 负面 影响 。 
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第 10 章 


Java EE 性 能 调 优 





本 章 关 注 的 是 Java EE (特别 是 Java EE 6 和 7)， 涵 盖 了 JSP、servlet 和 EJB 3.0 会 话 
Bean 因为 EJB 3.0 实体 Bean (Java 持久 化 API 实体 ， 即 JPA) 并 不 限定 于 Java EE 技 
术 (第 11 章 将 深入 讨论 )， 所 以 本 章 没 有 涵盖 。 


10.1 Web 容 器 的 基本 性 能 

Java EE 应 用 服务 器 性 能 的 关键 是 Web 容器 ， 它 通过 基本 的 servlet 和 JSP 页 面 处 理 HTTP 
请 求 。 

有 些 基本 的 途径 可 以 改善 Web 容器 的 性 能 ， 改 进 的 具体 方法 因 Java EE 实现 的 不 同 而 有 所 
不 同 ， 但 一 些 概念 可 以 适用 于 所 有 服务 器 。 









































减少 输出 
减少 服务 器 产生 的 结果 输出 可 以 加 快 Web 页 面 返 回 到 浏览 器 的 速度 。 
减少 空格 


在 servlet 代码 中 调用 PrintWriter 时 不 要 写 入 多 余 的 空格 ， 因 为 空格 在 网 络 上 传输 时 同 
样 需要 时 间 (而 且 ， 相 对 于 代码 的 处 理 ， 网 络 传输 时 间 更 为 重要 )。 你 应 该 用 print() 
而 不 是 println()， 主 要 是 为 了 避免 在 返回 结果 的 HTML 中 写 入 制 表 符 或 空格 。 虽 然 这 
使 有 些 人 查看 Web 页 面 源 代码 时 看 不 清 结构 ， 但 如 果 他 们 真 对 源 代 码 感 多 
会 使 用 XML 或 HTML 编辑 器 。 也 可 以 让 内 部 ， QA 或 者 性 能 优化 小 组 来 处 理 空格 。 
和 结构 化 的 页 面 源 代 码 可 以 简化 调试 ， 但 为 了 改善 应 用 的 响应 时 间 ， 我 最 后 还 得 
把 它 载 入 格式 编辑 器 以 去 除 多余 的 空格 。 绝 大 多 数 应 用 服务 器 都 可 以 自动 去 除 JSP 页 面 
0 s 格 。 比 如 Tomcat (以 及 基于 Tomcat 的 开源 Java EE 服务 器 ) 中 的 trimspaces 指 
， 可 以 将 JSP 页 面 每 行 的 前 后 空格 都 去 掉 。 所 以 开发 和 维护 JSP 页 面 时 可 以 有 适当 的 
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(至 少 对 人 类 来 说 是 如 此 ) 缩 进 ， 而 不 用 担心 会 在 网 络 上 传输 不 必要 的 空格 。 

合并 CSS 和 JavaScript 资源 
对 于 开发 者 来 说 ， 把 CSS 保存 在 独立 的 文件 中 是 有 意义 的 ， 也 更 容易 维护 。 对 于 
JavaScript 来 说 也 是 如 此 。 但 使 用 这 些 资源 时 ， 传 输 一 个 大 文件 的 效率 比 传输 几 个 小 文 
件 要 高 。Java EE 没有 这 方面 的 标准 ， 而 且 绝 大 多 数 应 用 服务 器 也 无 法 自动 处 理 ， 不 过 
有 些 开发 工具 可 以 帮助 你 合并 这 些 资 源 。 

压缩 输出 
从 用 户 角度 来 看 ， 执 行 Web 请 求 的 最 长 时 间 通 常 是 服务 器 将 HTML 发 回 浏览 器 所 需 的 
时 间 。 但 由 于 客户 端 (模拟 浏览 器 ) 到 服务 器 的 性 能 测试 通常 在 快速 局 域 网 中 进行 ， 所 
以 这 个 时 间 通 常 并 不 是 最 长 的 。 虽 然 真实 用 户 可 能 在 “快速 ”广域网 中 ， 但 仍然 要 比 
你 实验 室 里 的 机 器 之 间 的 LAN 慢 一 个 数量 级 。 大 多 数 应 用 服务 器 在 将 数据 发 回 浏览 器 
时 都 有 压缩 机 制 : HTML 数据 压缩 发 送 给 浏览 器 ， 内 容 类 型 (content type) 为 zip 或 
gzip。 这 只 有 在 初始 请 求 指 明 浏 览 器 支持 压缩 时 才 行 得 通 。 所 有 的 现代 浏览 器 都 支持 该 
特性 。 开 启 压缩 要 求 服务 器 有 更 多 的 CPU 周期 ， 但 通常 数据 量 越 小 ， 网 络 传送 的 时 间 
也 越 少 ， 从 而 整体 性 能 就 会 越 高 。 然 而 与 本 节 讨 论 的 其 他 优化 不 同 ， 它 并 不 总 能 提高 性 
能 。 本 节 后 面 的 例子 表明 ， 在 LAN 开启 压缩 时 ， 性 能 可 能 会 下 降 。 应 用 发 送 很 小 的 页 
面 时 也 会 如 此 (尽管 大 多 数 应 用 服务 器 允许 只 有 输出 大 于 某 个 特定 尺寸 时 才 压 缩 )。 

不 要 使 用 JSP 动态 编译 
默认 情况 下 ， 大 多 数 Java EE 应 用 服务 器 允许 JSP 页 面 动 态 更 改 : JSP 文件 可 以 随时 编 
辑 (无 论 部 署 在 哪里 ) ， 而 这 些 变化 将 在 下 次 访问 页 面 时 起 作用 。 这 在 开发 新 JSP 时 非 
常 有 用 ， 但 因为 每 次 访问 JSP 时 ， 服 务 器 都 要 通过 检查 文件 的 最 后 修改 日 期 来 判断 是 否 
需要 重新 加 载 ， 所 以 在 生产 环境 中 就 会 拖 慢 服务 器 。 这 通常 被 称 为 开发 模式 ， 应 该 在 生 
产 和 性 能 测试 时 关闭 。 








































































































字符 串 是 否 应 该 预 编码 ? 
应 用 服务 器 在 字符 转换 上 要 花费 大 量 时 间 : 从 Java 的 String 对象 (以 UTF-16 格式 
保存 ) 转换 成 客户 端 所 需要 的 字 节 数组 。 许 多 这 样 的 字符 串 总 是 相同 的 。Web 页 面 的 
HTML 字符 串 并 不 会 总 随 着 数据 发 生变 动 (如 果 发 生 了 ， 它 们 也 仍然 是 从 字符 串 常 量 
集合 中 获取 的 )。 
这 些 字符 串 是 否 应 该 预先 编码 成 字 节 数组 以 便 可 以 重用 ? 答案 取决 于 应 用 服务 器 和 应 
用 本 身 。 
JSP 页 面 的 HTML 字符 串 由 应 用 服务 器 所 写 。 字 符 串 是 否 预先 编码 取决 于 服务 器 : 有 
些 服 务 器 会 对 此 提供 一 个 选项 ， 有 一 些 则 是 自动 执行 的 。 
在 servlet 中 ， 这 些 字 符 串 可 以 预 编 码 ， 然 后 用 ServletOutputStreanm 的 write() 通过 网 络 
发 送 ， 不 要 用 PrintWriter 的 print()。 不 过 动态 数据 仍然 要 用 print() 才能 正确 编码 。 


(你 可 以 从 header 中 找到 目标 编码 ， 然 后 对 字符 串 编码 ， 但 这 种 方法 相对 容易 出 错 。) 
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应 用 服务 器 实现 这 些 输出 接口 以 及 在 其 内 部 缓存 这 些 数 据 的 方式 有 很 大 差别 。 对 一 些 
服务 器 来 说 ， 混 用 servlet 的 输出 流 (output stream) 和 它 的 小 伙伴 print writer 会 导致 
频繁 刷新 网 络 缓存 。 从 性 能 优化 角度 看 ， 频 繁 刷新 缓存 是 非常 昂贵 的 操作 一 一 比重 新 
编码 这 些 数据 更 昂贵 。 与 此 类 似 ， 对 一 大 块 数据 进行 编码 的 代价 通常 不 会 比 一 小 块 数 
据 高 很 多 : 最 主要 的 代价 是 建立 到 编码 器 的 调用 。 因 此 ,对 小 段 动 态 数 据 来 说 ,频繁 
地 编码 及 发 送 编码 后 的 字 节 数组 会 拖 慢 应 用 : 多 次 调用 编码 器 所 花费 的 时 间 ， 比 一 次 
调用 编码 所 有 的 东西 (包括 静态 数据 ) 要 长 。 


代码 的 预 编 码 在 某 些 情况 下 有 一 定 作 用 ， 但 要 视 情 况 而 定 。 











与 测试 相 比 ， 这 些 优化 措施 实际 运行 中 的 性 能 会 有 很 大 差别 。 表 10-1 显示 了 可 能 会 出 现 
的 结果 。 测 试 中 所 用 股票 历史 servlet 产生 的 输出 比较 长 ， 获 取 的 数据 范围 有 10 年。 所 产 
生 的 结果 是 未 经 压缩 和 未 去 除 空格 的 HTML 页 面 ， 大 约 为 100 KB。 为 了 将 带宽 的 影响 降 
至 最 低 ， 测 试 只 运行 单个 用 户 ， 思 考 时 间 为 100 毫秒 ， 然 后 测量 请 求 的 平均 响应 时 间 。 使 
用 局 域 网 时 ， 测 试 通过 100 MB 的 交换 机 在 本 地 网 络 上 运行 ， 使 用 宽带 时 ， 视 试 在 家 里 的 
电缆 上 运行 (平均 每 秒 30 Mb 的 下 载 速 度 )。 使 用 本 地 咖啡 店 中 的 公共 WiFi 连接 的 广域网 
时 一 一 网 速 是 相当 不 可 靠 的 (表格 中 展示 了 历时 4 个 小 时 的 平均 样本 )。 


表 10-1: 几 种 Web 响 应 输出 尺寸 方面 的 优化 在 不 同 网 络 条 件 下 的 效果 
所 使 用 的 优化 。 应 用 响应 时 间 (局 ”应 用 响应 时 间 ”应 用 响应 时 间 ( 公 

















域 网， 毫秒 ) ( 宽带 ， 毫秒) ” 共 WiFi， 毫 秒 ) 
无 20 26 1003 
去 除 空格 20 10 43 
压缩 输出 结果 30 5 17 





这 张 表 强调 了 在 应 用 的 实际 部 署 环境 中 进行 测试 的 重要 性 。 如 果 只 在 实验 室 环境 中 进行 测 
试 调 优 ， 那 得 到 的 一 大 半 性 能 都 是 不 太 靠 谱 的 。 虽 然 这 个 例子 中 的 测试 实际 和 运行 在 远程 应 
用 服务 器 上 〈 使 用 公有 云 服务 )， 但 硬件 模拟 器 可 以 模拟 出 实验 室 环境 ， 控 制 所 有 相关 的 
机 器 。( 云 服务 机 器 也 比 局 域 网 机 器 快 ， 它 们 之 间 的 机 器 数量 无 法 直接 进行 比较 。) 


快速 小 结 
1. 在 Java EE 应 用 所 实际 运行 的 网 络 基础 设施 上 对 它们 进行 测试 。 
2， 外 部 网 络 相 对 内 部 网 络 来 说 仍然 是 慢 的 。 限 制 应 用 所 写 的 数据 量 会 取得 








很 好 的 性 能 。 
HTTP 会 话 状态 


关于 HTTP 会话 状态 有 两 个 重要 的 性 能 提示 。 

1. HTTP 会 话 状态 的 内 存 占用 

请 注意 应 用 管理 HTTP 会 话 状 态 的 方式 。HTTP 会 话 数据 通常 存活 时 间 很 长 ， 所 以 很 容易 
塞 满 堆 内 存 ， 也 常常 容易 导致 GC 运行 太 频繁 的 问题 。( 此 外 ， 回 想 第 7 章 中 的 内 容 ， 堆 中 
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的 存活 数据 越 多 ， 单 次 GC 所 用 的 时 间 也 会 越 长 。) 


这 个 问题 最 好 在 应 用 层面 解决 :决定 在 HTTP 会 话 中 存储 数据 前 需 三 思 而 后 行 。 如 果 数 据 
可 以 很 容易 地 重建 ， 最 好 就 不 要 保存 在 会 话 状态 中 。 此 外 ， 还 需要 留意 会 话 数据 保留 的 时 
长 。 应 用 会 话 数据 保存 的 时 长 在 web.xml 文件 中 ， 默 认 值 为 30 分 钟 


<session-timeout>30</session-timeout> 


会 话 数 据 保留 的 时 间 太 长 了 一 一 真 的 有 用 户 在 离开 29 分 钟 后 再 返回 么 ? 调 低 这 个 值 可 以 
显著 缓解 太 多 会 话 数据 对 堆 内 存 造 成 的 压力 。 

这 部 分 是 Java EE 应 用 服务 器 的 具体 实现 可 以 提供 的 帮助 。 虽 然 会 话 数据 必须 保留 30 分 钟 
(或 其 他 值 )， 但 数据 没有 必要 保存 在 Java 堆 中 。 应 用 服务 器 可 以 (通过 序列 化 ) 将 会 话 数 
据 移 到 磁盘 或 者 远程 缓存 中 一 一 比如 说 ， 在 空间 了 10 分钟 之 后 进行 。 这 可 以 释放 应 用 服 
务 器 的 堆 内 存 空 间 ， 同 时 依然 遵循 保留 应 用 状态 30 分 钟 〈 或 其 他 值 ) 的 约定 。 如 果 用 户 
29 分 钟 之 后 回来 了 ， 那 他 的 首次 请 求 耗 时 会 长 一 些 ， 因 为 需要 从 磁盘 读 取 状 态 ， 但 在 此 期 
间 的 整体 应 用 服务 器 性 能 会 更 好 。 


这 也 是 测试 时 需要 牢记 的 一 个 重要 原则 : 面 对 应 用 的 用 户 ， 什 么 样 的 会 话 管理 是 切实 可 预 
期 的 ? 他 们 是 早上 登录 后 一 整 天 都 使 用 该 会 话 ， 还 是 来 去 很 频繁 ， 在 服务 器 上 留 下 大 量 的 
废弃 会 话 ， 还 是 介 于 两 者 之 间 ? 无 论 答案 是 什么 ， 都 应 该 确保 测试 反映 所 期 望 的 会 话 场 
景 。 否 则 生产 服务 器 就 会 被 错误 调 优 ， 因 为 此 时 堆 的 使 用 完全 不 同 于 性 能 测试 时 的 状况 。 
负载 生成 器 有 不 同 的 会 话 管理 方式 ， 但 一 般 来 说 ， 可 以 选择 在 测试 的 某 个 时 间 点 开局 一 个 
新 会 话 (可 通过 以 下 方式 实现 这 一 点 ， 即 关闭 连接 服务 器 的 socket 并 且 丢 弃 之 前 所 有 的 
cookie) 。 本 书 所 有 的 测试 都 使 用 fhb， 每 个 客户 端 线 程 的 每 轮 测 试 维护 一 个 线程 。( 不 过 ， 
实际 上 fhb 并 没有 创建 新 会 话 的 选项 ， 尽 管 通过 faban 中 定制 的 驱动 可 以 做 到 这 点 。) 
2. HTTP 会 话 状态 的 高 可 用 (Highly available HTTP session state) 
如 果 应 用 服务 器 在 高 可 用 (HA) 配置 下 测试 ， 那 么 必须 留意 服务 器 如 何 复制 会 话 状态 数 
据 。 应 用 服务 器 可 以 选择 在 每 个 请 求 中 复制 完整 的 会 话 状态 ， 或 者 只 在 数据 发 生 更 改 时 复 
制 。 毫 无 疑问 ， 第 二 种 方法 性 能 更 高 。 同 样 ， 这 是 大 多 数 应 用 服务 器 都 支持 的 特性 ， 不 过 
不 同 供应 商 的 设置 不 同 。 如 何 依 据 配 置 属性 进行 复制 ， 请 参考 应 用 服务 器 文档 。 
不 过 ， 要 使 这 个 法 子 管用 ， 开 发 人 员 必 须 遵 循 一 定 的 规则 来 处 理会 话 状态 。 特 别 是 ， 应 用 
服务 器 无 法 追踪 已 经 存储 在 会 话 中 的 对 象 的 变化 。 如 果 从 会 话 中 获取 一 个 对 象 ， 然 后 改变 
它 ， 必 须 调用 setAttribute() 方法 让 应 用 服务 器 知道 那个 对 象 的 值 发 生 了 变化 : 
HttpSession session = request.getSession(true); 


ArrayList<StockPriceHistory> al = 
(ArrayList<StockPriceHistory>) session.getAttribute("saveHistory"); 


alL.add(.………- 一 些 数据 ……); 

session.setAttribute("saveHistory", al); 
在 单个 〈 非 复制 ) 服务 器 上 ， 末 尾 的 那 名 setAttribute() 并 不 是 必需 的 :因为 al 已 经 在 
会 话 状态 里 了 。 如 果 省 略 了 该 调用 ， 将 来 该 会 话 中 的 所 有 请 求 都 会 发 到 服务 器 ， 一 切 都 会 
正常 工作 了 。 
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对 于 复制 服务 器 来 说 ， 如 果 省 略 了 该 调用 ， 会 话 会 被 复制 到 备份 服务 器 上 ， 请 求 会 被 备份 
服务 器 处 理 ， 应 用 可 能 会 发 现 al 数据 没有 发 生变 化 。 这 是 因为 应 用 服务 器 “优化 ”了 会 
话 状 态 的 处 理 ， 即 只 复制 变化 的 数据 到 备份 服务 器 上 。 没 调用 setAttribute() 的 话 ， 应 用 
服务 器 就 不 知道 al 发 生 了 变化 ， 所 以 执行 完 上 述 代码 后 不 会 复制 它 。 

某 种 程度 上 来 说 ， 这 是 Java EE 规范 中 的 灰色 区 域 。 规 范 没 有 强制 在 这 种 情况 下 必须 调 
用 setAttribute()， 但 每 种 Java EE 应 用 服务 器 实际 上 都 遵循 这 种 惯例 。 对 某 些 应 用 服务 
器 来 说 ， 这 是 会 话 复制 机 制 正常 工作 的 唯一 方式 。 而 其 他 还 有 些 应 用 服务 器 则 允许 配置 
数据 复制 的 方式 一 一 包括 每 次 调用 时 都 复制 所 有 的 会 话 状态 数据 ， 所 以 即便 应 用 不 调用 
setAttribute()， 也 能 正常 工作 。 虽 然 这 种 做 法 功能 上 没 问 题 ， 但 性 能 要 比 只 在 属性 更 改 
时 复制 要 差 很 多 。 

这 个 事实 的 真正 含义 在 于 : 一 旦 你 更 改 了 会 话 状态 中 的 对 象 值 ， 都 应 该 调用 
setAttribute()， 并 确保 你 的 应 用 服务 器 配置 成 只 复制 更 改 的 数据 。 


快速 小 结 

1. 会话 状态 会 对 应 用 服务 器 的 性 能 造成 重大 影响 。 

2. 尽 可 能 少 地 在 会 话 状态 中 保留 数据 ， 尽 可 能 缩短 会 话 的 有 效 期 ， 以 减少 
会 话 状态 对 垃圾 收集 的 影响 。 

3. 仔细 查看 应 用 服务 器 的 调 优 规范 ， 将 非 活跃 的 会 话 数据 移出 堆 。 

4. 开启 会 话 高 可 用 时 ， 需 要 确保 将 应 用 服务 器 配置 成 只 在 状态 属性 发 生变 
化 时 进行 会 话 复制 。 


10.2 ”线程 池 


第 9 章 深入 介绍 了 线程 他。Java EE 服务 器 则 扩展 了 线程 池 的 使 用 ， 同 时 第 9 章 所 介绍 的 
关于 如 何 正确 调整 线程 池 大 小 的 所 有 内 容 也 都 适用 于 应 用 服务 器 。 


应 用 服务 器 通常 不 只 有 一 个 线程 他。 一 个 线程 池 通 常用 来 处 理 servlet 的 请 求 ， 另 一 个 则 用 
来 处 理 远程 EJB 的 请 求 ， 第 三 个 则 可 以 处 理 Java Message Service (JMS) 请 求 。 也 有 些 应 
用 服务 器 允许 每 类 请 求 可 以 有 多 个 线程 池 : 比如 ， 同 样 是 servlet 请 求 ， 但 URL 不 同 ， 可 
以 由 单独 的 线程 池 处 理 ， 或 同样 是 远程 EJB 请 求 ， 但 调用 的 EJB 不 同 ， 也 可 以 由 单独 的 线 
程 池 处 理 。 
应 用 服务 器 中 的 线程 地 可 以 依据 不 同 的 请 求 量 分 成 若干 优先 级 。 以 运行 在 四 CPU 机 器 上 
的 应 用 服务 器 为 例 ， 假 设 它 的 HTTP 线程 地 有 12 个 线程 ，EJB 线程 池 有 4 个 。 所 有 线程 
都 会 争 抢 CPU， 但 当 所 有 线程 都 跑 满 的 时 候 ，servlet 请 求 使 用 CPU 的 机 会 比 EJB 请 求 多 
两 倍 。 实 际 上 servlet 线程 池 的 优先 级 为 3x。 


不 过 这 里 也 有 些 限制 。 这 些 线程 池 没 有 办 法 单独 设置 ， 所 以 只 有 在 没有 待 处 理 的 servlet 
请 求 时 ， 才 会 处 理 EJB 请 求 。 只 要 EJB 线程 池 中 还 有 可 用 线程 ， 这 些 线 程 就 会 共同 争 用 
CPU， 无 论 servlet 线程 池 有 多 忙 。 


类 似 地 ， 当 服务 器 因为 其 他 原因 空间 时 ， 也 请 注意 ， 不 要 将 线程 池 的 大 小 设置 成 低 于 预期 
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的 工作 人 负荷。 如果 四 CPU 机 器 的 JMS 池 只 配置 3 个 线程 ， 那 只 处 理 JMS 请 求 的 话 就 无 法 
充分 利用 CPU。 为 了 弥补 这 样 的 浪费 ， 所 有 线程 池 的 大 小 都 能 相应 增 大 ， 不 过 这 可 能 会 使 
你 的 机 器 运行 了 太 多 的 线程 ， 从 而 加 重 计算 机 的 负担 。 

因此 ， 这 种 调整 不 太 靠 谱 ， 并 且 取 决 于 你 的 应 用 服务 器 是 否 有 一 个 好 的 流量 模型 。 它 有 助 
于 让 你 应 用 的 性 能 百 尺 笔头 更 进一步 。 


10.3 EJB 会 话 Bean 


本 节 考 察 EJB 3.0 会 话 Bean 的 性 能 。Java EE 容器 管理 EJB 生命 周期 的 方法 很 特殊 ， 本 节 
中 的 准则 有 助 于 确保 容器 管理 生命 周期 时 不 会 影响 应 用 的 性 能 。 


10.3.1 调 优 EJB 对 和 象 池 
因为 EJB 对 象 创建 (和 销毁 ) 的 代价 很 高 ， 所 以 它们 通常 保存 在 对 象 池 中 。 如 果 没 有 池 
化 ， 调 用 EJB 包括 以 下 步骤 : 


。 创建 EJB 对 象 

。 处 理 标 注 并 且 将 依赖 的 资源 注入 这 个 新 EJB 对 象 

。 调用 标注 为 @PostConstruct 的 方法 

。 如 果 是 状态 Bean， 则 调用 标注 为 @Init 的 方法 或 者 ejbCreate() 方法 
。 执行 业务 方法 

。 调用 任何 标注 为 @PreRemove 的 方法 

。 如 果 是 状态 Bean， 则 调用 remove() 方法 


如 果 从 池 中 获取 EJB， 则 只 需要 调用 执行 业务 方法 一 一 其 余 6 个 步骤 都 可 以 跳 过 。 虽 然 通 
常情 况 下 并 不 需要 对 象 池 (参见 第 7 章 ) ， 但 如 果 初 始 化 对 象 的 代价 高 ， 就 值得 池 化 。 
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EJB 对 象 池 化 的 代价 

Java EE 应 用 服务 器 可 以 用 不 同 大 小 的 EJB 池 来 进行 测试 ， 从 而 衡量 从 池 中 获取 对 象 
和 因 需 创建 对 象 的 不 同性 能 ， 所 以 EJB 池 可 以 发 挥 对 象 池 的 益处 。 

在 这 个 例子 中 ， 我 在 GlassFish 4.0 应 用 服务 器 中 配置 了 标准 的 StockServlet。 应 用 中 
的 无 状态 Bean 完全 没有 初始 化 的 开销 。 虽 然 有 @PostConstruct 方法 ， 但 是 方法 体 是 
@PostConstruct 方法 通常 用 于 初始 化 资源 ， 比 如 ， 可 以 执行 (代价 相对 较 高 的 ) 
Java 命 名 和 目录 接口 (JNDI) 查找 。 为 了 模仿 这 种 情况 , 我 把 Storkservlet 的 @ 
PostConstruct 方法 改 为 sLeep， 让 它 模 拟 时 间 消 耗 ， 或 者 执行 一 些 初始 化 代码 。 


表 10-2 是 在 不 同 EJB 池 大 小 、 不 同 QPostConstruct 方法 睡眠 时 间 (模拟 初始 化 时 间 ) 
下 模拟 64 个 客户 田 访 问 应 用 时 的 响应 时 间 。 
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表 10-2: 对 象 池 对 EJB 响 应 时 间 的 影响 
EJB 池 大 小 初始 化 时 间 ( 毫秒 ) 平均 响应 时 间 ( 秒 ) 








1 0 0.37 
64 0 0.37 
1 25 0.40 
64 25 0.37 
1 50 0.42 
64 50 0.37 





如 果 初 始 化 不 需要 时 间 ，EJB 池 就 没什么 好 处 。 当 初始 化 需要 25 毫秒 或 者 50 毫秒 ， 
并 且 池 的 大 小 为 1 时 意味 着 每 次 调用 都 会 创建 一 个 EJB 对 象 不 出 所 料 ， 平均 
响应 时 间 拉 长 了 。 

由 于 这 个 EJB 池 中 只 有 64 个 (小) 对 象 ， 因 此 不 太 可 能 发 生 GC。 这 是 好 的 对 象 池 的 
另 一 个 关键 特性 : 小 才 是 好 。 

















只 有 在 应 用 服务 器 池 中 还 有 可 用 的 EJB 对 象 时 ， 性 能 才 会 提高 ， 所 以 必须 将 应 用 服务 器 中 
的 EJB 对 象 数 配置 成 应 用 同时 使 用 的 EJB 数 。 如 果 应 用 使 用 EJB 但 没有 池 化 的 实例 ， 应 
用 服务 器 就 会 开启 EJB 对 象 的 完整 生命 周期 ， 从 创建 、 初 始 化、 使 用 到 销毁 EJB 对 象 。 


当然 ， 应 用 所 依赖 的 对 象 数 取决 于 该 应 用 如 何 被 使 用 。 通 常情 况 下 ， 由 于 一 个 请 求 最 多 只 
需要 一 个 EJB ， 所 以 在 开始 的 时 候 一 般 需 要 确保 EJB 池 中 的 对 象 数 和 应 用 服务 器 中 的 工作 
线程 数 一 样 多 。 请 注意 ，EJB 池 是 按 类 型 分 的 ,如果 应 用 有 两 个 EJB 类 ， 应 用 服务 器 就 会 
使 用 两 个 地 (每 个 池 都 可 以 设置 线程 数 )。 
应 用 服务 器 不 同 ，EJB 池 的 调 优 方式 也 不 相同 ， 不 过 通常 来 说 ， 每 个 EJB 池 都 有 一 个 全 
局 (或 默认 ) 配置 ， 需 要 不 同 配置 的 EJB 可 以 覆盖 该 选项 (通常 在 它们 的 部 署 描述 符 中 )。 
例如 ， 对 GlassFish 应 用 服务 器 来 说 ，EJB 容器 默认 每 个 地 中 有 32 个 EJB 实例 ， 且 在 sun- 
ejb-jar.xml 文件 的 以 下 段落 中 可 以 配置 单个 bean 池 的 大 小 : 

<bean-pool> 

<steady-pool-size>8</steady-pool-size> 

<resize-quantity>2</resize-quantity> 

<max-pool-size>64</max-pool-size> 


<pool-idle-timeout-in-seconds>300</pool-idle-timeout-in-seconds> 
</bean-pool> 


这 个 例子 中 EJB 池 的 最 大 值 扩大 了 一 倍 ， 是 64。 

将 EJB 凶 大 小 设置 为 很 大 值 的 代价 通常 不 是 非常 高 。 池 中 没有 使 用 的 实例 会 略微 降低 GC 
的 效率 ， 但 通常 来 说 ， 池 不 会 很 大 ， 未 使 用 的 实例 不 会 有 很 明显 的 影响 。 有 个 例外 ， 即 如 
果 EJB 占用 了 大 量 内 存 ，GC 的 影响 就 会 变 大 。 然 而 ， 从 上 面 的 XML 可 以 看 出 ， 应 用 服 
务 器 通常 用 一 个 池 的 稳定 值 和 最 大 值 来 管理 池 。 在 上 面 的 例子 中 ， 如 果 流 量 主要 来 自 EJB 
中 的 10 个 实例 (比如 10 个 并 发 请 求 ), 一 直 只 有 10 个 EJB 实例 ， 那 么 池 就 永远 不 会 达到 
最 大 值 64。 
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如 果 有 短暂 的 流量 高 峰 ， 池 会 创建 这 64 个 实例 ， 随 着 流量 的 衰减 ， 这 些 EJB 就 会 空闲 。 
一 旦 空间 300 秒 ， 就 会 被 销毁 ， 内 存 就 可 以 被 GC。 这 使 得 池 对 GC 的 影响 最 小 。 


因此 ， 要 更 关心 EJB 池 稳 定 值 的 调 优 ， 而 不 是 最 大 值 的 调 优 。 


快速 小 结 

1.， EJB 池 是 对 象 池 的 典型 范例 : 初始 化 代价 高 ， 数 量 相 对 较 少 ， 所 以 池 化 
更 为 有 效 。 

2. 通常 来 说 ，EJB 池 的 大 小 包括 稳定 值 和 最 大 值 。 对 于 特定 的 环境 ， 两 种 
值 都 需要 调 优 ， 但 从 长 期 来 看 ， 为 了 降低 对 垃圾 收集 器 的 影响 ， 应 更 注 
重 稳定 值 的 调 优 。 


10.3.2 ” 调 优 EJB 缓 存 


对 于 状态 会 话 Bean， 还 需要 考虑 另外 一 个 因素 ， 即 它们 有 可 能 被 钝 化 (Passivation) : 为 
了 节约 内 存 ， 应 用 服务 器 会 选择 将 Bean 的 状态 序列 化 并 保存 到 磁盘 上 。 这 对 性 能 会 有 很 
严重 的 影响 ， 绝 大 多 数 情况 下 应 该 极力 避免 。 


坦白 说 ， 我 建议 在 所 有 情况 下 都 避免 这 么 做 。 关 于 钝 化 常见 的 和 争论 是 ， 会 话 空 间 了 几 个 
小 时 或 者 几 天 ， 该 怎么 办 。 当 用 户 重 新 回 到 系统 时 〈 几 天 后 ) ， 你 总 希望 他 能 找 回 完整 的 
状态 数据 。 这 种 情形 的 问题 在 于 ， 它 假定 EJB 会 话 是 唯一 重要 的 状态 数据 。 但 通常 来 说 ， 
EJB 与 HTTP 会 话 会 有 关联 ， 而 我 们 并 不 建议 长 时 间 保 留 HTTP 会 话 。 如 果 应 用 服务 器 的 
某 种 非 标准 特性 可 以 将 HTTP 会 话 保存 到 磁盘 ， 并 且 能 配置 成 同时 钝 化 HITP 会 话 和 EJB 
会 话 〈 持 续 的 时 间 也 相同 ) ， 这 就 有 意义 了 。 然 而 即便 如 此 ， 其 他 的 外 部 状态 也 可 能 会 缺 
失 。( 比 如 ， 用 户 购物 车 中 的 物品 失效 了 怎么 办 ? ) 


如 果 需 要 长 时 间 存活 的 状态 ， 通 常 你 需要 绕 过 常规 的 Java EE 状态 机 制 。 


与 会 话 关联 的 状态 Bean 并 没有 保存 在 EJB 池 中 ， 而 是 保存 在 EJB 缓存 中 。 因 此 ， 必 须 
对 EJB 缓存 进行 调 优 ， 以 便 容纳 应 用 中 同时 活跃 的 最 大 会 话 量 。 如 果 容 纳 不 了 ， 最 近 最 
少 使 用 的 会 话 将 会 被 钝 化 。 如 前 所 述 ， 不 同 的 应 用 服务 器 实现 的 方式 也 不 同 。GlassFish 
默认 的 缓存 为 S12， 全 局 值 可 以 通过 域 配置 进行 覆盖 ， 或 在 sun-ejb-jar.xml 文件 中 分 别 设 
置 每 个 EJB。 







































































快速 小 结 
1. EJB 缓存 仅 用 于 状态 会 话 Bean 与 HTTP 会 话 关联 的 时 候 。 
2， 应 该 充分 优化 EJB 缓存 ， 以 避免 钝 化 。 








监控 EJB 池 
怎么 才能 知道 EJB 池 和 缓存 的 大 小 应 该 是 多 少 ? 一 种 方法 是 根据 应 用 在 其 预期 的 负载 
下 的 工作 情况 来 进行 合理 的 猜测 。 不 过 ， 想 知道 是 否 创 建 了 太 多 EJB (或 印 化 了 太 多 
状态 会 话 Bean) 的 唯一 方法 就 是 借助 应 用 服务 器 的 监控 设备 来 进行 。 
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图 10-1 是 GlassFish 中 监控 的 示例 。 在 这 个 例子 中 ，EJB 累计 的 销毁 数 不 为 0， 表明 有 
些 EJB 创建 出 来 后 就 被 销毁 了 ， 因 为 有 些 操作 无 法 从 池 中 获得 可 用 的 Bean。 相 应 地 ， 
EJB 累计 的 创建 数 大 于 池 的 最 大 值 (这 个 例子 中 为 4) 。 这 意味 着 EJB 池 过 小 了 。 





Monitor (5 Statistics) 
写 EJB Pool Statistics : StockPriceHi 


| Name | Value | 





NumThreadsWaiting Ocount 


JmsMaxMessagesLoad 0 count 


TotalBeansDestroyed 70 count 
NumBeansInPool 4count 
TotalBeansCreated 74 count 











图 10-1: EJB 池 监 控 示 例 


为 了 了 解 应 用 的 性 能 ， 像 这 样 监控 统计 值 非常 重要 ， 但 也 得 留意 ， 监控 本 身 也 有 代价 。 
在 这 个 例子 中 ， 我 将 GlassFish 中 的 EJB 容器 监控 级 别 设置 为 HIGH， 以 便 生 成 这 些 统 
计数 据 ， 结 果 总 吞吐 量 就 降低 了 约 5%。 应 用 本 身 并 没有 太 大 影响 ， 但 对 应 用 服务 器 
来 说 ， 你 就 得 注意 如 何 进行 配置 和 监控 了 。 在 GlassFish 中 ， 监 挖 级 别 设 为 LOW 的 影响 
几乎 可 以 忽略 不 计 绝 大 多 数 操作 都 可 以 进行 这 个 级 别 的 监控 ,而 需要 更 多 信息 时 ， 
监控 级 别 可 以 动态 地 设置 为 HIGH。 














10.3.3 ”本 地 和 远程 实例 
EJB 可 以 通过 本 地 或 远程 接口 访问 。 在 标准 的 Java EE 部 署 中 ，EJB 可 通过 servlet 来 访问 ， 
而 servlet 可 以 通过 本 地 或 远程 接口 访问 EJB。 如 果 EJB 在 其 他 系统 上 ， 则 必须 使 用 远程 接 
口 ， 但 如 果 EJB 和 servlet 在 一 起 (这 是 更 常见 的 部 署 方式 )，servlet 通常 应 该 使 用 本 地 接 
口 访问 EJB。 

由 于 远程 接口 包含 网 络 调用 ， 所 以 上 述 方式 看 起 来 很 合理 。 但 这 并 不 是 主要 原因 一 一 当 
servlet 和 远程 EJB 部 署 在 同一 个 应 用 服务 器 上 时 ， 大 多 数 服务 器 都 足够 智能 ， 可 以 旁 路 网 
络 调用 ， 从 而 通过 常规 的 方法 调用 EJB。 


优先 使 用 本 地 接口 的 主要 原因 是 ， 两 类 接口 处 理 参数 的 方法 不 同 。 传 递 (或 返回 ) 给 本 地 
EJB 的 参数 合乎 通常 的 Java 语义 : 原生 类 型 通过 值 传递 ， 而 对 象 则 通过 引用 传递 。( 或 者 ， 
严格 来 说 ， 对 象 句柄 也 仍然 是 通过 值 传递 ， 只 不 过 对 象 的 引用 使 对 象 看 起 来 是 通过 引用 传 
递 的 。) 

而 传递 (或 者 返回 ) 给 远程 EJB 的 参数 则 总 是 值 传递 。 这 种 通过 网 络 的 传送 只 有 一 种 方 
式 : 发 送 方 将 对 象 序 列 化 后 以 字 方 流 的 方式 传输 出 去 ， 而 接收 方 则 反 序列 化 字 市 流 后 重建 
对 象 。 即 使 服务 器 优化 本 地 调用 ， 避 免 了 网 络 开 销 ， 它 也 不 能 绕 过 序列 化 / 反 序 列 化 步骤 。 
(大 多 数 服务 器 传输 对 象 不 可 变 时 一 一 字符 串 或 者 原生 值 一 一 都 能 跳 过 序列 化 的 步骤 ， 但 
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这 不 是 一 般 情况 。) 无 论 服务 器 写 得 多 好 ， 使 用 远程 EJB 接口 总 是 比 本 地 接口 慢 。 

Java EE 还 包括 其 他 部 署 场景 。 例 如 ， 可 以 将 servlet 和 EJB 部 署 在 不 同 层 上 ， 且 普通 应 用 
可 以 通过 远程 接口 访问 EJB。 也 常常 会 有 业务 或 者 功能 上 的 原因 而 使 网 络 结构 受 限 ， 例 
如 ， 假 设 EJB 需要 访问 企业 数据 库 ， 你 可 能 想 将 数据 库 放 在 防火 墙 后 面 的 机 器 上 ， 而 防火 
墙 则 隔 开 了 servlet 容器 和 数据 库 。 这 些 因素 都 是 性 能 问题 中 需要 重点 考虑 的 。 但 严格 地 从 
性 能 角度 来 说 ， 将 访问 EJB 的 组 件 和 EJB 部 署 到 一 起 并 使 用 本 地 接口 总 是 比 使 用 远程 协议 
要 快 。 

说 到 远程 协议 ， 所 有 的 远程 EJB 都 必须 支持 IOP (CORBA) 协议 。 这 十 分 有 利于 互通 性 ， 
特别 是 对 那些 不 是 用 Java 编写 的 程序 来 说 。 对 于 远程 访问 来 说 ，Java EE 服务 器 供应 商 也 
可 以 使 用 其 他 协议 ， 包 括 专用 协议 。 通 常 来 说 ， 这 些 专 用 协议 都 比 CORBA 快 (这 就 是 为 
什么 供应 商 开 发 它 的 首要 原因 )。 所 以 ， 如 果 必 须 使 用 远程 EJB 调用 (不 考虑 不 同 语言 之 
间 的 互通 性 )， 可 以 考虑 那些 应 用 服务 器 供应 商 所 提供 的 访问 协议 选择 。 


快速 小 结 
即便 在 同一 个 服务 器 中 ， 调 用 EJB 远程 接口 也 对 性 能 有 很 大 的 影响 。 



























































10.4 XML 和 JSON 处 理 


对 于 部 署 在 Java EE 应 用 服务 器 上 的 servlet 应 用 来 说 ， 它 们 的 输出 会 在 浏 览 器 中 显示 ， 而 
返回 给 用 户 的 数据 几乎 总 是 HIML。 本 节 洱 盖 了 一 些 如 何 处 理 这 些 数 据 交换 的 最 佳 实践 。 

程序 之 间 交 换 数据 也 可 以 使 用 应 用 服务 器 ， 特 别 是 通过 HITP。Java EE 支持 多 种 基于 
HTTP 的 数据 传输 : 成 熟 的 Web Service 使 用 JAX-WS，RESTful 使 用 JAX-RS， 甚 至 你 吕 
以 自己 调用 HITP。 这 些 API 的 共同 点 是 ， 它 们 都 使 用 基于 本 文 的 数据 传输 (基于 XML 
或 JSON)。 虽 然 XML 和 JSON 的 数据 呈现 有 很 大 的 不 同 ， 但 Java 处 理 它们 的 方式 是 类 似 
的 ， 并 且 性 能 的 考量 点 也 是 类 似 的 。 
这 并 不 意味 着 两 种 呈现 之 间 没 有 功能 上 的 重要 差别 。 一 般 来 说 ， 选 择 哪 种 呈现 还 应 该 依据 
算法 和 可 编程 性 上 的 考虑 ， 而 不 仅仅 是 性 能 。 如 果 目 的 是 与 其 他 系统 交互 ， 那 选择 何 种 方 
式 就 取决 于 接口 定义 。 对 于 复杂 应 用 来 说 ， 处 理 Java 对 象 通 常 要 比 遍 历 文档 树 要 腰 容 易 
得 多 ; 这 种 情况 下 ，JAXB ( 即 采 用 XML) 是 更 好 的 选择 ， 至 少 可 以 节省 时 间 : Java EE 
7 遵循 JSR 353 (提供 文档 模型 的 标准 解析 ) 只 支持 JSON-P。 编 写本 书 时 ，JSON-B JSR 
(JSON 中 支持 类 似 JAXB 的 特性 ) 还 没有 得 到 认可 (但 将 来 可 能 会 )。 


除了 上 述 差别 之 外 ，XML 和 JSON 还 有 其 他 重要 差别 。 所 以 ， 本 节 比 较 两 者 性 能 的 真实 目 
的 在 于 理解 如 何 尽 可 能 地 获得 最 佳 性 能 ， 而 不 是 在 特定 环境 下 如 何 选 择优 化 ， 无 论 选 择 的 
是 哪 种 呈现 。 

10.4.1 数据 大 小 


10.1 节 “Web 容器 的 基本 性 能 ”显示 了 数据 大 小 对 整体 性 能 的 影响 。 在 分 布 式 网 络 环境 
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中 ， 数 据 大 小 是 很 重要 的 。 关 于 这 方面 ， 通 常 都 认为 JSON 比 XML 小 ， 虽 然 差 别 通常 不 
大 。 在 本 节 的 测试 中 ， 我 从 eBay 请 求 获取 最 畅销 的 20 件 商品 ， 并 用 XML 和 JSON 返回 。 
例子 中 的 XML 有 23 031 字 节 ，JSON 比较 小 ， 只 有 16 078 字 节 。 但 JSON 数据 之 间 没 有 
空格 ， 所 以 易 读 性 差 ， 不 过 可 读 性 并 不 是 目标 ， 所 以 并 不 碍 事 。XML 则 与 之 不 同 ， 结 构 
明晰 ， 有 许多 空格 ， 去 掉 空 格 后 可 以 缩减 为 20 556 字 节 。 不 过 与 JSON 相 比 ， 字 节 数 仍然 
有 25% 的 差别 ， 绝 大 部 分 是 因为 XML 元素 的 结束 标记 。 通 常 来 说 ， 这 些 结束 标记 总 会 使 
输出 的 XML 较 大 。 值 得 注意 的 是 ， 有 许多 网 站 可 以 将 XML 自动 转换 成 JSON。 

















样本 数据 有 效 负载 
页 穿 本 节 的 样本 数据 来 自 eBay。 像 许多 公司 一 样 ，eBay 为 开发 人 员 提 供 接 口 ， 以 便 
他 们 在 自己 的 应 用 中 使 用 。 通 常 来 说 ， 数 据 以 XML 或 JSON 的 格式 获取 。 


比如 ， 获 取 eBay 上 销量 排行 榜 前 20 位 商品 的 列表 。 下 面 是 简化 后 的 XML 样本 数据 : 


<xml version="1.0" encoding="UTF-8"?> 
<FindPopuLarItemsResponse xmlns="urn:ebay:apis:eBLBaseComponents" 
xmlns:xsi="http://www.w3.0rg/2001/XMLSchema-instance" 
xsi:schemaLocation="urn:ebay:apis:eBLBaseComponents docs/xsd/ebay.xsd"> 
<Timestamp>2013-03-29T01:57:46.530Z</Timestamp> 
<Ack>Success</Ack> 
<Build>E815_CORE_APILW2_15855352_R1</Build> 
<Version>815</Version> 
<ItemArray> 
<Item> 
<ItemID>140356481394</ItemID> 
Pe 其 他 17 个 属性 i 
</Item> 
ee 其 他 相同 结构 的 19 个 元 素 …… 
</ItemArray> 
</FindPopuLarItemsResponse> 


JSON 数据 与 此 类 似 〈 实 际 上 它 没 有 空格 ， 此 处 只 是 为 了 增加 可 读 性 ) : 


{"Timestamp":"2013-03-29T02:17:14.8982Z"， 

"Ack":"Success", 

"Build":"E815_CORE_APILW2_15855352_R1", 

"Version":"815", 

"ItemArray":{ 
"Item":[{"ItemID":"140356481394" ，…… 其 他 17 个 属性 …… }]; 
os 其 他 相同 结构 的 19 个 元 素 ……… 









































无 论 采用 哪 种 格式 传输 ， 数 据 压缩 都 能 带 来 巨大 的 好 处 。 实 际 上 ， 两 种 格式 压缩 之 后 的 大 
小 非常 接近 : JSON 压缩 后 的 大 小 为 3471 字 节 ，XML 压缩 后 的 大 小 为 3742 字 节 。 如 此 一 
来 ， 数 据 大 小 上 的 差异 就 不 那么 重要 了 ， 而 传递 压缩 数据 也 和 传递 其 他 压缩 后 的 HITP 数 
据 一 样 ， 都 有 好 处 。 
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快速 小 结 
和 HTML 数据 一 样 ， 程 序 中 的 数据 也 能 从 减少 空格 和 压缩 中 获得 巨大 的 








10.4.2 解析 和 编组 概述 


给 定 一 组 XML 或 JSON 字符 串 ， 程 序 必须 将 其 转换 成 适合 Java 处 理 的 数据 。 依 据 程序 

的 上 下 文 和 输出 结果 ， 这 个 过 程 被 称 为 编组 (marshal) 或 解析 。 反 过 来 一 一 从 数据 生成 

XML 或 JSON 串 则 被 称 为 解 组 (unmarshal ) 。 

一 般 来 说 ， 处 理 这 些 数据 涉及 以 下 四 种 技术 。 

标识 符 解 析 器 (Token parser) 

解析 器 遍 查 输入 数据 中 的 标识 符 ， 当 发 现 标 识 符 时 则 回调 相应 对 象 上 的 方法 。 

拉 模 式 解 析 器 (Pull parser) 

输入 的 数据 与 解析 器 关联 ， 程 序 从 解析 器 中 请 求 (或 拉 取 ) 标识 符 。 

文档 模型 (Document model) 

输入 数据 被 转换 成 文档 风格 的 对 象 ， 以 便 程 序 在 查找 数据 片段 时 可 以 遍历 。 

对 象 呈 现 (Object representation) 

通过 与 输入 数据 对 应 的 预定 义 类 ， 可 以 将 数据 转换 成 一 个 或 多 个 Java 对 象 〈( 例 如， 可 
以 用 预定 义 的 Person 类 来 转换 关于 人 的 数据 ) 。 

虽然 上 述 技 术 大 体 上 按照 性 能 从 慢 到 快 的 顺序 排列 ， 但 它们 之 间 最 主要 的 差别 是 功能 而 不 

是 性 能 。 前 两 种 技术 在 功能 上 没有 很 大 差别 :它们 都 适用 于 大 多 数 只 需 扫 描 一 次 就 能 提取 

信息 的 算法 。 不 过 解析 器 所 能 做 的 只 是 简单 的 扫描 。 解 析 器 模式 并 不 非常 适合 那 种 需要 随 

机 访问 的 数据 ， 或 者 需 多 次 侦 历 的 数据 。 为 了 应 对 这 些 情况 ， 使 用 简单 解析 器 的 程序 应 该 

构建 内 部 的 数据 结构 ， 虽 然 这 只 是 个 简单 的 编程 问题 ， 但 文档 对 象 模型 和 Java 对 象 模型 已 

经 提供 了 结构 化 的 数据 ， 可 能 比 你 自己 定义 新 结构 要 容易 。 

实际 上 ， 这 就 是 使 用 解析 器 和 数据 编组 之 间 的 真实 差别 。 前 面 两 种 是 纯粹 的 解析 器 模式 ， 

取决 于 如 何 用 解析 器 提供 的 方式 处 理 数 据 逻 辑 。 下 面 两 项 是 数据 编组 器 它们 必须 使 用 解 

析 器 处 理 数 据 ， 但 它们 所 提供 的 数据 呈现 可 以 用 在 更 复杂 的 程序 逻辑 中 。 

所 以 ， 采 用 何 种 技术 首先 取决 于 应 用 是 什么 样 的 。 如 果 程 序 只 需要 简单 地 过 一 遍 数 据 ， 那 

么 简单 地 使 用 最 快 的 解析 器 是 最 有 效 的 。 如 果 数 据 需 要 保存 为 应 用 所 定义 的 简单 结构 ， 那 

么 直接 使 用 解析 器 也 是 合适 的 ， 例 如 ， 示 例 数 据 中 商品 条 目的 价格 需要 保存 为 ArrayList， 

以 便 应 用 的 其 他 部 分 进行 处 理 。 

数据 格式 为 重 的 时 候 ， 使 用 文档 模型 更 合适 。 如 果 必 须 保 留 数据 格式 ， 那 文档 的 格式 转换 

就 会 很 容易 : 数据 读 入 后 转 成 文档 格式 ， 用 某 种 方法 更 改 ， 然 后 可 以 很 容易 地 写 到 新 的 数 

据 流 中 。 
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为 了 尽 可 能 便利 ， 对 象 模型 提供 Java 语言 层面 的 数据 呈现 。 数 据 可 以 通过 对 象 及 其 属性 的 
方式 来 操作 。 数 据 编组 时 所 增加 的 复杂 性 〈 绝 大 部 分 ) 对 开发 人 员 透 明 ， 并 且 会 使 应 用 略 
微 慢 一 些 ， 但 开发 人 员 代码 生产 率 上 的 提高 可 以 抵消 这 个 问题 。 
本 节 的 示例 读 取 有 20 个 条 目的 XML 或 者 JSON 文档 ， 并 将 条 目 ID 保存 到 ArrayList 中 。 
对 某 些 测 试 来 说 ， 只 需要 前 10 个 条 目 。 这 是 为 了 模拟 真实 世界 里 经 常 发 生 的 事 ， 即 返回 
的 数据 总 是 超过 实际 所 需要 的 数据 。 在 Web 服务 的 设计 考量 中 ， 这 是 很 好 的 点 : 调用 的 建 
立 需 要 一 些 时 间 ， 用 更 少 的 远程 调用 (即便 需要 大 量 数据 ) 而 不 是 大 量 小 的 远程 调用 。 
尽管 所 有 的 示例 都 展示 了 这 类 常见 操作 ， 但 关键 点 并 不 在 于 直接 比较 这 部 分 任务 的 性 能 。 
而 是 说 ， 每 个 示例 展示 的 是 如 何在 所 选择 的 框架 下 最 有 效 地 执行 操作 ， 因 为 框架 的 选择 并 
不 单 是 考虑 解析 和 数据 编组 的 性 能 。 


快速 小 结 

1，Java EE 应 用 中 有 很 多 办 法 处 理 程序 所 需要 的 数据 。 

2. 虽然 这 些 技术 给 开发 人 员 提 供 了 很 多 功能 ， 但 数据 处 理 本 身 的 代价 也 增 
加 了 。 不 要 因此 影响 你 在 应 用 中 选择 正确 处 理 数据 的 方法 。 


10.4.3 ”选择 解析 器 


编程 中 所 用 的 所 有 数据 都 必须 能 被 解析 。 对 应 用 来 说 ， 选 择 直接 使 用 解析 器 ， 还 是 通过 序 
列 化 框架 间接 使 用 解析 器 ， 对 于 数据 操作 的 整体 性 能 至 关 重 要 。 


1. 拉 模 式 解析 器 
从 开发 者 的 角度 来 看 ， 拉 模式 的 解析 器 最 容易 使 用 。 在 XML 的 世界 中 ， 广 为 人 知 的 拉 模 
式 解 析 器 就 是 StAX (Streaming API for XML) 解析 器 。JSON-P 只 提供 拉 模 式 解 析 器 。 


拉 模 式 解 析 器 依据 需要 从 流 中 获取 数据 。 本 市 测试 所 用 的 基本 拉 模 式 解 析 器 的 主 逻 辑 就 是 
下 面 的 这 个 循环 : 


XMLStreamReader reader = staxFactory.createXMLStreamReader(ins); 
while (reader.hasNext()) { 
reader .next(); 
int state = reader .getEventType(); 
switch (state) { 
case XMLStreamConstants.START_ELEMENT: 
String s = reader .getLocalName(); 
if (ITEM_ID.equaLs(s)) { 
isItemID = true; 
























































} 
break; 
case XMLStreamConstants .CHARACTERS: 
if (isItemID) { 
String id = reader .getText(); 
isItemID = false; 
if (addItemId(id)) { 
return; 
} 
} 
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break; 
default: 
break; 


} 





解析 器 返回 一 组 token。 这 个 例子 中 的 大 多 数 token 都 会 被 丢弃 。 当 过 到 起 始 类 型 的 token 
时 ， 就 会 检查 是 不 是 ITEM_ID。 如 果 是 ， 则 下 一 个 字符 token 就 是 应 用 所 需要 保存 的 人 D。 
ID 可 通过 addItemId() 保存 ， 如 末 成 功 保 存 ID 则 返回 true。 一 旦 发 生 ， 循 环 就 会 返回 ， 
不 再 处 理 输入 流 中 剩 下 的 数据 。 


从 概念 上 说 ，JSON 解析 器 的 工作 方式 与 此 一 模 一 样 ， 只 是 有 一 些 API 调用 上 的 变化 : 


while (parser.hasNext()) { 
Event event = parser.next(); 
switch (event) { 
case KEY_NAME: 
String s = parser.getString(); 
if (ITEM ID.equals(s)) { 
isItemID = true; 




















} 
break; 
case VALUE_STRING: 
if (isItemID) { 
if (addItemId(parser.getString())) { 
return; 


} 


isItemID = false; 


} 


continue; 
default: 
continue; 


} 


只 处 理 必要 的 数据 可 以 给 性 能 带 来 可 预见 的 好 处 。 表 10-3 列 出 了 解析 样本 文档 的 平均 时 间 
(毫秒 )， 假设 条 件 从 解析 10 个 条 目 后 即 可 退出 循环 ， 到 处 理 整 个 文档 。 解 析 10 个 条 目 后 
退出 并 没有 节约 50% 的 时 间 〈 因 为 文档 的 其 他 段落 也 需要 解析 ) ， 但 差别 还 是 很 显著 的 。 
表 10-3: 拉 模 式 解析 器 的 性 能 

处 理 的 条 目 数 ”XML 解析 器 ( 毫秒 ) JSON 解析 器 ( 毫秒 ) 

10 143 68 

20 265 146 



































2. 推 模 式 解 析 器 

标准 的 XML 解析 器 是 SAX (Simple API for XML) 解析 器 。SAX 解析 器 是 一 种 推 模式 解 
析 器 : 读 入 数据 ， 当 发 现 token 时 ， 就 会 执行 类 中 处 理 该 token 的 回调 方法 。 下 面 测试 中 
的 解析 逻辑 与 之 前 相同 ， 不 过 现在 逻辑 放 在 了 类 所 定义 的 回调 方法 中 : 


protected class CustomizedInnerHandler extends DefaultHandler { 
public void startElement(String space, String name, 
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String raw, Attributes atts) { 
if (name.Length() == 0) 
name = raw; 
if (name.equaLsIgnoreCase(ITEM_ID)) 
isItemID = true; 


} 


public void characters(char[] ch, int start, 
int length) throws SAXDoneException { 
if (isItemID) { 
String s = new String(ch, start, length); 
isItemID = false; 
if (addItemId(s)) { 
throw new SAXDoneException("Done"); 
} 
} 
} 
} 


这 里 程序 逻辑 上 唯一 的 差别 是 ， 必 须 以 抛 出 异常 的 方式 来 通知 解析 完成 了 ， 因 为 这 是 
XML 推 模式 解析 框架 检测 到 解析 应 该 停止 的 唯一 方法 。 这 个 例子 中 ， 应 用 所 抛 出 的 异常 
是 SAXDoneException。 一 般 来 说 ， 任 何 SAXException 都 可 以 抛 出 ， 这 个 例子 中 使 用 的 是 该 
异常 的 子 类 ， 使 得 程序 其 他 部 分 的 逻辑 可 以 区 分 哪个 是 实际 错误 ， 哪 个 是 通知 解析 终止 的 
信号 。 

SAX 解析 器 比 StAX 快 ， 虽然 性 能 上 的 差别 很 小 一 一 选择 哪 种 解析 器 应 该 取决 于 开发 中 哪 
种 模型 更 容易 。 表 10-4 展示 了 推 模式 解析 器 和 拉 模 式 解 析 器 在 处 理 时 间 上 的 差异 。 

表 10-4: 推 模式 解析 器 的 性 能 

条 目 数 XML StAX 解 析 器 ( 毫秒 ) ”XML SAX 解析 器 ( 毫秒 ) 


10 143 132 
20 265 231 























JSON-P 没有 相应 的 推 模式 解析 器 模型 。 

3. 其 他 解析 机 制 的 实现 和 解析 器 工厂 

XML 和 JSON 规范 定义 了 解析 器 的 标准 接口 。JDK 提供 了 XML 解析 器 的 参考 实现 ， 

JSON-P 项 目 则 提供 了 JSON 解析 器 的 参考 实现 。 应 用 可 以 使 用 任意 解析 器 (当然 ， 只 

该 解析 器 实现 了 所 需要 的 接口 )。 

解析 器 是 从 解析 器 工厂 中 获得 的 。 将 解析 器 工厂 设置 成 返回 所 需 解 析 器 的 实例 (而 不 是 默 

认 解 析 器 )， 就 可 以 使 用 不 同 的 解析 器 实现 。 这 其 中 隐 含 着 某 些 性 能 问题 。 

。 工厂 初始 化 的 代价 昂贵 : 确保 可 以 通过 全 局 (或 至 少 是 线程 本 地 变量 ) 引用 的 方式 重用 
四 时 局 

。 工厂 可 通过 多 种 不 同 的 方式 进行 配置 ， 其 中 一 些 配 置 (包括 默认 配置 ) 从 性 能 的 角度 来 
看 并 不 是 最 优 的 。 

。 其 他 的 解析 器 实现 可 能 比 默 认 的 更 快 。 
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工厂 和 解析 器 的 重用 
XML 和 JSON 解析 器 工厂 的 创建 代价 很 高 。 幸 运 的 是 ， 工 厂 是 线程 安全 的 ， 所 以 很 容 
易 保 存在 全 局 静态 变量 中 ， 可 以 在 需要 的 时 候 重 用 。 
但 一 般 来 说 ， 解 析 器 无 法 重用 ， 也 不 是 线程 安全 的 。 因 此 ， 解 析 器 通常 是 因 需 而 建 。 


SAX 解析 器 的 一 个 优点 是 可 以 重用 解析 器 对 象 。 重 用 时 ， 只 需要 在 使 用 解析 器 之 前 调 
用 reset() 方法 即 可 。 不 过 解析 器 仍然 不 是 线程 安全 的 ， 所 以 务必 确保 同一 时 间 只 在 
单个 线程 中 重用 解析 器 。 




















让 我 们 依次 来 看 上 述 几 点 。 
为 求 平均 的 解析 速度 ， 这 些 测 试 解析 了 1 百 万 次 数据 (10 000 次 预 热 解析 之 后 )。 下 面 的 
示例 代码 确保 只 构造 一 次 工厂 ， 在 测试 开始 时 调用 的 初始 化 方法 中 完成 。 每 轮 测 试 中 的 解 
析 器 实例 则 由 工厂 因 需 而 创建 。 由 此 ，SAX 测试 包含 的 代码 如 下 所 示 : 

SAXParserFactory spf; 

// 只 在 程序 初始 化 时 调用 一 次 

protected void engineInit(Runparams rp) throws IOException { 

spf = SAXParserFactory.newInstance(); 



































} 

// 每 轮 迭 代 时 调用 

protected XMLReader getReader() Throws SAXException { 
return spf.newSAXParser().getXMLReader(); 





} 


StAX 解析 器 与 此 类 似 ， 调 用 XMLFactory .newInstance() 获得 工厂 (类 型 为 XMLInputFactory)， 
然后 调用 工厂 的 createStreamReader() 方法 获得 StreamReader。 对 于 JSON， 相 应 的 调用 
方法 是 Json.createParserFactory() 和 createParser()。 

如 果 要 用 另 一 种 解析 器 实现 ， 我 们 必须 用 另 一 种 工厂 ， 才 能 使 工厂 的 调用 返回 所 需要 的 实 
现 。 这 就 是 关于 工厂 配置 的 第 二 点 : 确保 所 用 的 工厂 是 经 过 优化 设 定 的 。 

可 以 通过 3 种 方法 设 定 XML 工厂 。 此 处 所 用 的 工厂 (javax.xml.stream.XMLInputFactory) 
默认 设 定 的 是 StAX 解析 器 。 为 了 和 覆盖 默认 的 SAX 解析 器 ， 需 设置 成 javax.xmL.parsers. 
SAXParserFactory。 

为 确定 使 用 的 是 哪 种 工厂 ， 需 要 按 以 下 顺序 查找 选项 。 

1. 使 用 由 系统 属性 -Djavax.xmL.stream.XMLInput Factory=my.factory.class 指定 的 工厂 。 

2. JAVA/jre/lib 下 的 文件 jaxp.properties 内 所 指定 的 工厂 ， 类 似 这 样 一 行 : 


javax.xml.stream.XMLInputFactory=my.factory.class 








3. 在 classpath 上 搜索 文件 META-INEF/services/javax.xml.stream.XMLInputFactory。 该 文件 
需要 包含 单独 的 一 行 my.factory.cLass。 
4. 使 用 JDK 定义 的 默认 工厂 。 


上 面 第 3 种 方法 有 明显 的 性 能 问题 ， 特 别 是 在 环境 设置 了 很 长 的 classpath 的 时 候 。 为 了 查 
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看 某 个 备 选 的 实现 是 否 已 被 设 定 ， 必 须 扫描 整个 classpath， 搜 索 每 个 入 口中 的 META-INF/ 
services 目录 下 的 特定 文件 。 而 且 ， 每 次 创建 工厂 时 都 会 重复 这 个 查找 过 程 。 所 以 ， 如 果 
类 加 载 器 没有 缓存 资源 的 查找 结果 〈 大 多 数 类 加 载 右 没有 缓存 ) ， 初 始 化 工厂 的 代价 就 非 
第 高 。 

更 好 的 做 法 是 用 前 两 种 办 法 配置 应 用 。 系 统 会 依 上 述 列表 的 顺序 查找 工厂 ， 一 旦 找到 ， 搜 
索 过 程 就 会 停止 。 

这 两 种 方法 的 不 足 之 处 在 于 ， 它 们 是 全 局 的 ， 会 影响 应 用 服务 器 上 的 所 有 代码 。 如 果 两 个 
不 同 的 企业 应 用 部 署 到 了 同一 个 服务 器 上 ， 并 且 需 要 不 同 的 解析 器 工厂 ， 那 服务 器 就 要 必 
须 依靠 在 classpath 上 搜索 工厂 的 技术 了 (可 能 会 很 慢 )。 


发 现 解析 器 工厂 的 方法 其 至 还 影响 了 默认 工厂 : JDK 必须 要 搜索 完 classpath 后 才 知 道 使 用 
默认 工厂 。 因 此 ， 即 便 你 使 用 默认 工厂 ， 你 也 应 该 通过 配置 全 局 系统 属性 或 Java 运行 时 环 
境 (JRE) 属性 文件 来 指向 默认 实现 。 否 则 ， 只 有 在 第 3 步 花 费 了 昂贵 代价 搜索 之 后 ， 才 
会 使 用 默认 工厂 (列表 中 的 第 4 项 )。 

对 JSON 来 说 ， 配 置 有 少许 不 同 : 指定 其 他 实现 的 唯一 办 法 是 ， 在 META-INF/services 下 
指定 一 个 名 为 javax.json.spi.JsonProvider 的 包含 新 JSON 解析 器 实现 类 的 类 名 的 文件 。 不 幸 
的 是 ， 查 找 JSON 工厂 时 ,没有 办 法 避免 搜索 整个 classpath 。 

选择 解析 器 的 最 后 一 个 性 能 考量 点 是 备 选 实现 的 性 能 。 本 市 只 是 对 一 些 解析 器 实现 性 能 多 
快速 浏览 ， 没 有 必要 在 意 表面 上 的 结果 。 不 同 的 实现 之 间 总 有 差异 。 就 性 能 而 言 ， 不 同 实 
现 之 间 可 能 各 有 千秋 。 某 些 时 候 ， 备 选 实现 会 比 参考 实现 快 (到 JDK 新 的 发 布 版 或 者 新 的 
JSON-P 参考 实现 时 ， 参 考 实现 可 能 就 会 超过 备 选 实现 )。 

比如 说 ， 在 编写 本 书 时 ，Woodstox 的 StAX 解析 器 (http://woodstox.codehaus.org/) 就 比 
JDK7 和 8 所 带 的 解析 器 要 快 一 些 ( 见 表 10-5)。 


表 10-5: StAX 解 析 器 的 性 能 


数据 条 数 。” ”JDK StAX 解 析 器 ( 毫秒 ) Woodstox StAX 解 析 器 ( 毫秒 ) 
10 143 125 
20 265 237 




























































































而 JSON 解析 器 的 状况 要 混乱 得 多 。 在 编写 本 书 时 ，JSON-P 规范 的 最 终 稿 刚刚 制定 好 ， 但 
还 没有 JSR 353 兼容 的 JSON 解析 器 实现 。 对 于 其 他 JSON 解析 器 来 说 ， 最 后 遵循 JSR 353 
API 只 是 一 个 时 间 问 题 。 

具体 应 视 情 况 而 定 ， 所 以 查找 其 他 JSON 实现 ， 看 看 它们 是 否 有 更 好 的 性 能 不 失 为 一 个 好 
主意 。 一 种 实现 是 Jackson JSON 处 理 器 〈 目 前 不 兼容 JSR 353) ， 它 已 经 实现 了 基本 的 拉 
模式 解析 器 (准确 来 说 ， 并 不 是 JSR 353 的 API 调用 )。 参 见 表 10-6。 


表 10-6: JSON 解 析 器 的 性 能 


数据 条 数 Java EE JSON 解 析 器 ( 毫秒 ) Jackson JSON 解 析 器 ( 毫秒 ) 
10 68 40 
20 146 74 
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新 的 JSR 参考 实现 通常 也 是 这 样 ， 就 像 JDK 7 XML 解析 器 比 前 一 个 版 本 快 很 多 一 样 ， 新 
的 JSON-P 解析 器 的 性 能 预计 也 会 有 巨大 的 提升 。( 实 际 上 ， 本 节 测 试 所 用 的 JSON 解析 器 
版 本 为 1.0.2， 比 初始 的 1.0 版 本 快 约 65% 。) 


快速 小 结 

1. 选择 的 解析 器 是 否 合适 ， 对 应 用 的 性 能 有 巨大 的 影响 。 

2. 推 模式 解析 器 通常 比 拉 模式 解析 器 快 。 

3. 查找 解析 器 工厂 的 算法 非常 耗 时 ， 如 果 可 能 的 话 ， 应 该 通过 系统 属性 直 
接 指定 工厂 而 不 是 用 现 有 的 实现 。 

4. 在 不 同 的 时 间 点 上 ， 最 快 的 解析 器 实现 的 赢家 可 能 会 不 同 。 适 当 的 时 候 ， 
应 该 从 备 选 的 解析 器 中 找 。 























10.4.4 XML 验证 


解析 器 可 依据 一 个 schema ( 意 为 “模式 ”) 对 XML 数据 进行 验证 ， 拒 绝 语法 不 正确 的 文 
档 一 一 指 缺 少 某 些 必要 的 信息 ， 或 者 包含 了 不 该 有 的 信息 的 文档 。 此 处 所 说 的 “语法 正 
确 ” 是 指 文档 内 容 ， 如 果 文 档 有 语法 错误 (比如 文档 没有 包含 在 XML 标签 中 ， 或 者 缺少 
XML 闭合 标签 等 )， 所 有 解析 器 都 不 会 接收 该 文档 。 


这 种 验证 是 XML 相 比 JSON 所 具有 的 一 个 优点 。 解 析 JSON 文档 时 你 可 以 自己 提供 验证 
逻辑 ， 但 解析 XML 时 ， 解 析 器 能 替 你 做 这 些 验证 。 但 这 个 好 处 是 有 性 能 代价 的 。 


XML 验证 是 依据 一 个 或 多 个 schema 或 DTD 文件 进行 的 。 虽 然 DTD 的 验证 更 快 ， 但 
XML schema 更 灵活 ， 现 在 是 XML 世界 中 的 主流 。schema 比 DTD 慢 的 一 个 原因 是 ， 
schema 通常 在 多 个 文件 中 设 定 。 所 以 减少 验证 成 本 的 第 一 个 方法 就 是 整合 schema 文件 : 
schema 文件 越 多 ， 验 证 的 代价 越 高 。 需 要 在 多 个 文件 的 可 维护 性 和 性 能 收益 之 间 进 行 权 
衡 。 不 幸 的 是 ， 由 于 schema 文件 维护 了 不 同 的 命名 空间 ， 所 以 整合 起 来 并 不 容易 〈 就 像 
CSS 或 JavaScript 文件 那样 ) 。 


从 何 处 装载 schema 文件 对 性 能 有 极 大 的 影响 。 如 果 必 须 反 复 从 网 络 上 装载 schema 或 
DTD， 性 能 就 会 变 精 糕 。 理 想 情况 下 ，schema 文件 应 该 随 着 应 用 代码 一 起 分 发 ， 这 样 就 能 
从 本 地 文件 系统 装载 了 。 


对 常见 的 SAX 验证 来 说 ， 只 需要 用 代码 为 SAX 解析 器 工厂 设置 一 些 属性 即 可 (这 只 大 
SAX 解析 器 有 效 ， 对 StAX 解析 器 而 言 ， 除 非 使 用 本 市 后 面 讨论 的 Validator 对 象 ， 否 则 
验证 依据 的 是 DTD 文件 而 不 是 schema)。 


SAXParserFactory spf = SAXParserFactory.newInstance(); 

spf.setValidating(true); 

spf.setNamepsaceAware(true); 

SAXParser parser = spf.newSAXParser(); 

// 注意 :创建 解析 器 时 可 以 执行 上 面 的 几 行 代码 

// 如 果 重 用 该 解析 器 ,而 不 是 调用 parser .reset(), 则 需要 设置 属性 

parser.setProperty(JAXPConstants .JAXP_SCHEMA_LANGUAGE, 
XMLConstants.N3C_XML_SCHEMA_NS_URI) ; 

XMLReader xr = parser.getXMLReader(); 

xr.setErrorHandler(new MyCustomErrorHandler()); 
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解析 器 默认 没有 验证 ， 所 以 得 先 调 用 setvalidating()， 然 后 设置 属性 ， 将 验证 所 依据 的 语 
言 告诉 解析 器 一 一 本 例 中 为 W3C XML schema 语言 (例如 XSD 文件 )。 最 后 ， 设 置 解析 器 
在 验证 出 错时 的 处 理 程序 。 


这 种 处 理 方式 一 一 XML 文档 的 默认 处 理 方式 一 一 会 在 每 次 解析 新 文档 时 重读 schema， 即 
便 解析 器 本 身 已 经 重用 。 为 了 更 好 的 性 能 ， 可 以 考虑 重用 schema。 


即便 从 文件 系统 装载 schema， 重 用 schema 也 会 有 很 大 的 好 处 。 装 载 schema 时 ， 必 须 解 
析 和 处 理 它 〈 毕 竟 它 自己 也 是 XML 文档 )。 保 留 处 理 结果 并 重用 可 以 极 大 地 提升 XML 的 
外 理 效率 。 这 在 绝 大 多 数 应 用 场景 下 都 是 正确 的 ， 应 用 接收 和 处 理 成 千 上 万 的 XML 文档 ， 
而 所 有 这 些 文档 都 遵循 相同 的 一 个 (或 一 组 ) schema。 


重用 schema 的 方法 有 两 种 ， 第 一 种 (只 对 SAX 解析 器 有 效 ) 是 创建 schema 对 象 并 与 
SAXParserFactory 关联 : 


















































SchemaFactory sf = SchemaFactory.newInstance( 
XMLConstants.W3C_XML_SCHEMA_NS_URI); 

StreamSource ss = new StreamSource(rp.getSchemaFileName()); 

Schema schema = sf.newSchema(new Source[]{ss}); 

SAXParserFactory spf = SAXParserFactory.newInstance(); 

spf.setValidating(false); 

spf.setNamespaceAware(true); 

spf.setSchema(schema ) ; 

parser = spf.newSAXParser(); 


请 注意 ， 这 个 例子 中 调用 setValidating() 时 参数 为 faLse。setSchema() 和 setValidating() 
是 两 种 互相 矛盾 的 文档 验证 方法 '。 


重用 schema 对 象 的 第 二 种 方法 是 使 用 vaLidator ， 将 解析 与 验证 分 离 ， 使 得 两 种 操作 可 以 
在 不 同时 间 进 行 。 用 StAX 解析 器 解析 时 ， 可 以 在 流 的 验证 过 程 中 嵌入 特定 的 reader 来 进 
行 验证 。 
使 用 Validator 时 ， 首 先 要 创建 特定 的 reader。reader 的 处 理 逻 辑 和 之 前 相同 : 查找 起 始 
元 素 (start element) itemID， 找 到 之 后 保存 这 些 ID。 不 过 ， 这 些 操作 必须 委托 给 默认 的 
StAX 流 reader: 








private class MyXMLStreamReader extends StreamReaderDelegate() { 
XMLStreamReader reader; 
public MyXMLStreamReader (XMLStreamReader xsr) { 
reader = xsr; 


} 


public int next() throws XMLStreamException { 
int state = super.next(); 
switch (state) { 
case XMLStreamConstants.START_ELEMENT: 
a 处 理 起 始 元 素 Item ID.….…. 
break; 
case XMLStreamConstants .CHARACTERS: 








注 1: 因为 setValidating() 只 包括 DTD 的 验证 。 一 一 译 者 注 

















i 如 果 是 item id, 则 保存 当前 的 字符 。 


break; 


} 


return state; 


} 
接 下 来 ， 将 这 个 reader 与 Validator 所 用 的 输入 流 关联 。 


SchemaFactory sf = SchemaFactory.newInstance( 
XMLConstants.W3C_XML_SCHEMA_NS_URI); 

StreamSource ss = new StreamSource(rp.getSchemaFileName()); 

Schema schema = sf.newSchema(new Source[]{ss}); 

XMLInputFactory staxFactory = XMLInputFactory.newInstance(); 

staxFactory.setProperty (XMLInputFactory.IS_VALIDATING, Boolean.FALSE); 

XMLStreamReader xsr = staxFactory.createXMLStreamReader(ins); 

XMLStreamReader reader = new MyXMLStreamReader(xsr); 

Validator validator = schema.newValidator(); 

validator .validate(new StAXSource(new StaxSource(reader))); 


validate() 在 进行 常规 验证 时 还 会 调用 StreamReaderDelegate (此 处 为 MyXMLStreamReader )， 
它 会 从 输入 数据 中 解析 所 需要 的 信息 (实质 上 是 验证 过 程 的 意外 收获 )。 

这 种 方法 的 不 足 之 处 在 于 ， 处 理 过 程 无 法 在 读 取 若干 条 数据 之 后 干净 利索 地 终止 。next() 
依旧 可 以 在 抛 出 异常 之 后 捕获 该 异常 一 一 就 像 前 面 的 SAXDoneException。 此 处 有 个 问题 ， 
即 默认 的 schema 监听 器 在 处 理 遇 到 异常 时 会 打印 错误 信息 。 

表 10-7 列 出 了 所 有 这 些 操作 的 影响 。 与 简单 的 解析 (不 进行 验证 的 ) 相 比 ， 带 有 默认 验证 
的 解析 会 付出 更 大 的 性 能 代价 。 重 用 schema 可 以 弥补 一 些 性 能 损耗 ， 并 能 确保 XML 文档 
是 合乎 语法 规范 的 ， 但 验证 总 会 有 些 显 车 的 代价 。 

表 10-7: XML 文档 验证 的 性 能 



























































解析 模式 SAX ( 毫秒 ) StAX ( 毫秒 ) 

无 验证 231 265 

默认 验证 730 N/A 

重用 schema 的 验证 649 1392 
快速 小 结 








1， 如果 业务 需要 进行 schema 验证 ， 那 就 用 它 。 只 是 要 留意 ， 验 证 对 解析 数 
据 的 性 能 会 带 来 显著 的 损耗 。 
2. 总 是 重用 schema， 以 将 验证 对 性 能 的 影响 降 至 最 低 。 


10.4.5 “文档 模型 


构建 文档 对 象 模型 (Document Object Model，DOM) 或 JSON 对 象 只 需要 一 组 相对 简单 的 
方法 调用 。 对 象 本 身 是 随 着 底层 的 解析 器 而 创建 的 ， 所 以 优化 性 能 的 一 个 重要 举措 是 配置 
好 解析 器 (DOM 默认 使 用 StAX 解析 器 ) 。 


DOM 对 象 是 随 着 DocumentBuilder 对 象 而 创建 的 ， 而 DocumentBuilder 来 自 Document- 
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BuiLderFactory。 默 认 的 DocumentBuilderFactory 可 通过 属性 javax.xml.parsers.Document- 
BuilderFactory (或 者 文件 META-INF/services/javax.xml.parsers.DocumentBuilderFactory) 
来 指定 。 由 于 创建 解析 器 时 所 配置 的 属性 对 性 能 优化 很 重要 ， 所 以 创建 DocumentBuilder 
时 配置 的 系统 属性 也 就 变 得 很 重要 了 。 

和 SAX 解析 器 一 样 ， 只 要 在 使 用 前 调用 reset() 方法 就 能 重用 DocunentBuilder 对 象 。 
JSON 对 象 是 随 着 JsonReader 对 象 而 创建 的 ， 而 JsonReader 可 直接 来 自 Json 对 象 (通过 
调用 Json.createReader()) 或 来 自 JsonReaderFactory 对 象 (通过 调用 Json.createJson- 
ReaderFactory())。 虽 然 JSR 353 RI 现在 还 没有 支持 任何 配置 选项 ， 但 通过 属性 Map 可 以 
配置 JsonReaderFactory。JsonReader 对 象 不 能 重用 。 


如 表 10-8 所 示 ， 与 简单 解析 数据 相 比 ，DOM 的 创建 代价 比较 高 。 
表 10-8: DOM 与 JSON 解 析 的 性 能 对 比 
































操作 XML ( 毫秒 ) ”JSON ( 毫秒 ) 
解析 数据 265 146 
构建 文档 348 197 








构建 文档 的 时 间 包 括 解 析 的 时 间 加 上 创建 文档 对 象 结构 的 时 间 一 一 所 以 从 这 张 表 可 以 推算 
出 ， 对 XML 而 言 构建 文档 结构 的 时 间 大 约 占 了 总 时 间 的 33%， 对 JSON 而 言 则 占 了 25% 。 
对 更 复杂 的 文档 来 说 ， 构 建文 档 模型 所 占用 的 时 间 百 分 比 会 更 大 。 


之 前 的 解析 测试 有 时 候 可 能 只 关心 前 10 个 条 目 。 如 果 对 象 展 现 类 似 地 也 包括 这 前 10 个 元 
素 ， 那 就 有 两 种 选择 。 首 先 创建 对 象 ， 调 用 各 种 方法 遍历 对 象 ， 并 丢弃 不 需要 的 条 目 。 这 
是 JSON 对 象 唯 一 的 选择 。 


DOM 对 象 可 以 用 DOM 级 别 3 的 属性 建立 过 着 解析 器 。 首 先 要 创建 一 个 解析 过 滤器 : 


private class InputFilter implements LSParserFilter { 
private boolean done = false; 
private boolean itemCountReached; 
public short acceptNode(Node node) { 
if (itemCountReached) { 
String s = node.getNodeName(); 
if ("ItemArray".equals(s)) { 
return NodeFilter .FILTER_ACCEPT; 





























} 
if (done) { 
return NodeFilter.FILTER_SKIP; 
} 
// 我 们 不 需要 元 素 </Item> 
if ("Item".equals(s)) { 
done = true; 
} 
} 
return NodeFilter.FILTER_ACCEPT; 
} 


public int getWhatToShow() { 
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return NodeFilter.SHOW_ALL; 
} 


public short startELement(ELement element) { 

if (itemCountReached) { 
return NodeFilter.FILTER_ACCEPT; 

} 

String s = element.getTagName(); 

if (ITEM_ID.equals(element.getTagName())) { 
if (addItemId(element.getNodeValue())) { 

itemCountReached = true; 

} 

} 

return NodeFiLLter .FILTER_ACCEPT; 


} 


每 个 元 素 会 调用 两 次 解析 过 滤器 : 解析 元 素 开 始 时 ， 调 用 startElement()， 结 束 元 素 结束 
时 ， 调 用 acceptNode()。 如 果 元 素 不 应 在 最 终 的 DOM 文档 中 出 现 ， 就 应 在 上 述 两 个 方法 
之 一 中 返回 ftLTER_SKIP。 在 这 个 例子 中 ，startELement() 用 来 追踪 有 多 少 条 目 已 经 被 处 理 
了 ， 而 acceptNode() 则 用 来 判定 是 否 整个 元 素 应 该 被 跳 过 。 请 注意 ，acceptNode() 中 也 需 
要 追踪 结尾 的 </Item> 标签 ， 以 免 跳 过 。 也 请 注意 ， 只 有 类 型 ItemArray 的 子 节 点 元 素 才 
会 被 跳 过 ，XML 文档 的 其 他 元 素 则 不 应 该 被 跳 过 。 


为 了 设 定 输入 过 滤器 ， 可 以 使 用 以 下 代码 : 


System.setProperty(DOMImplementationRegistry .PROPERTY, 
"com.sun.org.apache.xerces.internal.dom.DOMImplementationSourceImpl"); 

DOMImplementationRegistry registry = 
DOMImplementationRegistry.newInstance(); 

DOMImplementation domImpL = registry.getDOMImpLementation("LS 3.0"); 

domLS = (DOMImplementationLS) domImpl; 

LSParser lsp = domLS.createLSParser(DOMImpLementationLS.MODE_SYNCHRONOUS ， 

"http://www.w3.org/2001/XMLSchema " ) ; 

lsp.setFilter(new InputFilter()); 

LSInput lsi = domLS.createLSInput(); 

lsi.setByteStream(is); 

Document doc = lsp.parse(lsi); 


最 后 创建 Document 对 象 ， 如 同 它 没有 过 滤 输 入 一 一 不 过 在 这 个 例子 中 ， 结 果 文 档 要 小 得 多 。 
这 是 过 滤 的 关键 点 ， 在 实际 的 解析 和 过 滤 过 程 中 ， 生 成 过 滤 的 文档 所 花费 的 时 间 比 生成 包含 
所 有 原始 信息 的 文档 花费 的 时 间 要 多 。 因 为 文档 占用 的 内 存 更 小 ， 且 能 减少 对 垃圾 收集 器 的 
压力 ， 所 以 这 在 文档 需要 长 时 间 存 活 (或 者 有 许多 这 样 的 文档 在 使 用 ) 时 很 有 用 。 
表 10-9 显示 的 是 构造 只 有 一 半 “(10 个 ) 条 目的 DOM 对 象 时 ， 解 析 一 般 的 XML 文 从 
度 差异 。 
表 10-9: 过 滤 DOM 文 档 所 造成 的 影响 

标准 DOM 过 滤 DOM 
创建 DOM 所 用 时 间 348 毫秒 417 毫秒 
DOM 的 大 小 101 440 字 节 58 824 字 节 
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快速 小 结 

1. 使 用 DOM 和 Json0bject 比 用 简单 解析 器 要 强大 得 多 ， 但 构造 模型 所 花 
的 时 间 长 度 会 很 显著 。 

2. 过 滤 模 型 数据 比 构造 默认 模型 要 花费 更 多 的 时 间 ， 但 对 于 长 时 间 运 行 或 
者 很 大 的 文档 来 说 ， 仍 然 是 值得 的 。 


10.4.6” Java 对象 模 型 

处 理 文本 数据 的 最 后 一 种 选择 是 在 解析 相关 的 数据 之 后 创建 一 组 Java 类 实例 。JSR 有 此 类 
的 JSON 建议 (proposal) ， 但 没有 标准 。 对 XML 来 说 ， 这 是 通过 JAXB 来 实现 的 。 

JAXB 底层 用 的 是 StAX 解析 器 ， 所 以 为 你 的 平台 选择 最 佳 的 StAX 解析 器 配置 有 助 于 提高 
JAXB 的 性 能 。JAXB 通过 创建 Unmarshaller 对 象 来 创建 Java 对 象 : 


JAXBContext jc 
Unmarshaller u 


创建 JAXBContext 的 代价 比较 昂贵 。 幸 运 的 是 ， 它 是 线程 安全 的 ， 可 以 创建 单个 全 局 的 
JAXBContext， 然 后 重用 (在 多 个 线程 间 共 享 )。 但 Unmarshaller 对 象 不 是 线程 安全 的 ， 所 
以 每 个 线程 必须 创建 一 个 新 对 象 。 不 过 Unmarshaller 对 象 可 以 重用 ， 所 以 将 它 保存 在 线程 
本 地 变量 中 (或 者 对 象 池 中 )， 将 有 助 于 提高 处 理 大 量 文档 时 的 性 能 。 

通过 JAXB 创建 对 象 的 代价 要 比 解析 或 创建 DOM 文档 的 代价 昂贵 。 但 权衡 下 来 ， 使 用 这 
些 对 象 还 是 要 比 遍 历 文档 快 得 多 (其 至 ， 使 用 对 象 就 仅仅 是 写 常规 的 Java 代码 ， 而 不 是 用 
错综复杂 的 API 来 访问 )。 此 外 ， 依 据 JAXB 文档 编写 XML 要 比 直 接 从 文档 编写 XML 快 
得 多 。 表 10-10 显示 了 性 能 差异 ， 示 例文 档 有 20 个 条 目 。 


表 10-10: JAXB 编 组 和 解 组 的 性 能 


编组 ( 毫秒 ) ” 解 组 ( 毫秒) 
DOM 348 298 
JAXB 414 232 





























JAXBContext .newInstance( "net. sdo.jaxb"); 
jc.createUnmarshaller(); 


A 









































过 滤 XML 和 JAX-WS 


即便 使 用 JAXB， 你 需要 处 理 的 通常 也 只 是 部 分 XML 数据 。 而 一 般 来 说 ，JAX-WS 会 
基于 JAXB 将 整个 XML 转换 成 Java 对 象 。 从 易 用 角度 来 看 ， 这 种 方法 很 好 ， 它 使 得 
应 用 代码 更 容易 编写 和 维护 。 但 是 ， 如 果 只 需要 访问 部 分 XML， 用 JAXB 处 理 整个 文 
档 就 太 奢侈 了 ， 并 且 所 有 这 些 JAXB 对 象 会 消耗 太 多 堆 内 存 。 

在 这 个 例子 中 ，XML 数据 应 该 作为 SOAP 消息 的 附件 发 送 (MIME 类 型 为 application/ 
xml) 。 附 件 不 会 被 转换 成 JAXB 对 象 ， 你 可 以 用 DOM builder 过 滤 ， 或 者 用 简单 的 
StAX 解析 器 只 处 理 你 所 关心 的 文档 部 分 。 
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快速 小 结 

1. JAXB 将 XML 文档 生成 Java 对 象 ， 以 最 简单 的 编程 模型 访问 和 使 用 数据 。 
2. 创建 JAXB 对 象 的 代价 比 创建 DOM 对 象 的 昂贵 。 

3. JAXB 写 XML 数据 的 速度 要 快 于 DOM 对 象 。 


10.5 “对 和 象 序列 化 


不 同系 统 间 的 数据 交换 可 以 使 用 XML、JSON 和 其 他 基于 文本 的 格式 。Java 进程 间 交 换 数 
据 ， 通 常 就 是 发 送 序列 化 后 的 对 象 状 态 。 尽 管 序列 化 在 Java 中 随处 可 见 ， 但 Java EE 中 还 
有 两 点 需要 重点 考虑 。 


。 Java EE 服务 器 间 的 EJB 调用 一 一 远程 EJB 调用 一 一 通过 序列 化 交换 数据 。 
。 HTTP 会 话 状态 通过 对 象 序列 化 的 方式 来 保存 ， 这 让 HTTP 会 话 可 以 高 可 用 。 


JDK 提供 了 默认 的 序列 化 对 象 机 制 ， 以 实现 seriatizabte 或 Externatizabte 接口 。 实 际 
上 ， 默 认 序列 化 的 性 能 还 有 提升 的 空间 ， 但 此 时 进行 过 早 的 优化 的 确 不 太 明智 。 特 定 的 序 
列 化 和 反 序 列 化 代码 需要 很 多 时 间 编 号 ， 而 且 也 比 默认 的 序列 化 代码 更 难 维护 。 编 写 正确 
的 序列 化 代码 会 有 一 些 棘 手 ， 试 图 优化 代码 也 会 增加 出 错 的 风险 。 



































10.5.1  _ transient 字段 


一 般 来 说 ， 序 列 化 的 数据 越 少 ， 改 进 性 能 所 需 的 代价 就 越 少 。 将 字段 标 为 transtent， 默 
认 就 不 会 序列 化 了 。 类 可 以 提供 特定 的 write0bject() 和 readobject() 以 处 理 这 些 数据 。 
如 果 不 需 要 这 些 数据 ， 简 单 地 将 它 标 记 为 transient 就 足够 了 。 


10.5.2 ”覆盖 默认 的 序列 化 


write0bject() 和 read0bject() 可 以 全 面 控制 数据 的 序列 化 。 正 所 谓 “ 权 力 越 多 ， 责 任 越 
大 ”: 序列 化 很 容易 出 错 。 


为 了 了 解 序列 化 优化 的 困难 性 ， 以 一 个 表示 位 置 的 简单 对 象 Point 为 例 : 


public class Point impLements Serializable { 
private int x; 
private int y; 

















} 


在 我 的 机 器 上 ，100 i 133 毫秒 内 序列 化 ， 在 741 毫秒 内 反 序列 化 。 
但 即便 像 这 么 简单 的 对 象 ， 性 色 常 困难 一 一 也 能 改善 。 
public class Point implements Serializable { 


private transient int x; 
private transient int y; 














private void write0bject(ObjectOutputStream oos) throws IOException { 
o0s.defaultWriteObject(); 
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oos.WriteInt(x); 
o0s.writeInt(y); 


} 
private void readObject(ObjectInputStream ois) 
throws IOException, ClassNotFoundException { 
ois.defaultReadObject(); 
x = ois.readInt(); 
y = ois.readInt(); 


} 


在 我 机 器 上 序列 化 100 000 个 这 样 的 对 象 仍然 要 花费 132 毫秒 ,但 反 序 列 化 只 需要 468 这 
秒 一 一 改善 了 30%。 如 果 简 单 对象 的 反 序列 化 占用 了 相当 大 一 部 分 程序 运行 的 时 间 ， 像 这 
样 优化 就 比较 有 意义 。 然 而 请 当心 ， 这 会 使 得 代码 难以 维护 ， 因 为 字段 被 添加 、 移 除了 ， 


和 铂 稚 
5 于 于 o 


到 目前 为 止 ， 代 码 更 为 复杂 了 ， 但 功能 上 依然 正确 ( 且 更 快 )。 注 意 ， 将 此 技术 应 用 到 一 
般 场景 时 务必 要 谨慎 : 


public class TripHistory implements Serializable { 
private transient Point[] airportsVisited; 


























// 注意 ,这 段 代码 不 正确 ! 
private void write0bject(ObjectOutputStream oos) throws IOException { 
o0s.defaultWriteObject(); 
oo0s.writeInt(airportsVisited.length); 
for (int i = 0; i < airportsVisited.length; i++) { 
o0s.writeInt(airportsVisited[i].getX()); 
o0s.writeInt(airportsVisited[i].getY()); 


wm 


} 


private void readObject(ObjectInputStream ois) 
throws IOException, ClassNotFoundException { 
ois.defaultReadObject(); 
int Length = ois.readInt(); 
airportsVisited = new Point[Length] ; 
for (int i = 0; i < length; i++) { 
airportsVisited[i] = new Point(ois.readInt(), ois.readInt(); 


} 
a 


此 处 的 字段 airportsvisited 是 表示 我 出 发 或 到 达 的 所 有 机 场 的 数组 ， 按 照 我 离开 或 到 达 
它们 的 顺序 排列 。 有 些 机 场 ， 像 JEK， 在 数组 中 出 现 得 比较 频繁 ，SYD (目前 ) 只 出 现 过 
一 次 。 

由 于 序列 化 对 象 引 用 的 代价 比较 昂贵 ， 所 以 上 述 代 码 要 比 默 认 的 数组 序列 化 机 制 快 : 在 
我 的 机 器 上 ，100 000 个 Point 对 象 的 数组 序列 化 用 时 4.7 秒 ， 反 序列 化 用 时 6.9 秒 。 上 述 
“优化 ”使 得 序列 化 只 用 了 2 秒 ， 反 序列 化 只 用 了 1.7 秒 。 


然而 这 段 代码 是 不 正确 的 。 指 定 JFK 位 置 的 数组 引用 都 指向 相同 的 对 象 。 这 意味 着 ， 如 果 




















发 现 数据 不 正确 而 更 改 单个 JFK， 那 数组 中 的 所 有 引用 都 会 受到 影响 (因为 它们 引用 的 是 
相同 的 对 象 )。 


用 上 述 代 码 反 序列 化 数组 时 ， 这 些 JFK 引用 就 会 变 为 独立 的 、 不 同 的 对 象 。 当 某 个 对 象 更 
改 时 ， 就 只 有 它 发 生 改变 ， 结 果 它 的 数据 就 不 同 于 其 他 那些 表示 JFK 的 对 象 了 。 


这 条 原则 非常 重要 ， 应 该 铭记 于 心 ， 因 为 序列 化 的 调 优 常常 就 是 如 何 对 对 象 的 引用 进行 特 
殊 处 理 。 做 对 了 ， 序 列 化 的 性 能 可 以 获得 极 大 提升 ， 做 错 了 ， 就 会 引入 不 易 察 觉 的 bug。 


鉴于 此 ， 我 们 来 考察 一 下 StockPriceHistory 的 序列 化 ， 看 看 如 何 优 化 序列 化 。 以 下 是 这 
个 类 的 字段 : 


public class StockPriceHistoryImpl implements StockPriceHistory { 
private String symbol; 
protected SortedMap<Date, StockPrice> prices = new TreeMap<>(); 
protected Date firstDate; 
protected Date lastDate; 
protected boolean needsCalc = true; 
protected BigDecimal highPrice; 
protected BigDecimal LowPrice; 
protected BigDecimal averagePrice; 
protected BigDecimal stdDev; 
private Map<BigDecimal, ArrayList<Date>> histogram; 














public StockPriceHistoryImpl(String s, Date firstDate, Date LastDate) { 
prices = .... 
} 
下 


当 以 给 定 标志 s 构造 StockPriceHistoryImpl 对 象 时 ， 会 创建 和 存储 SortedMap 类 型 的 
变量 prices， 键 值 为 start 和 end 之 间 的 所 有 股票 价格 的 上 时间。 构造 函数 也 设置 保存 了 
firstDate 和 LastDate。 除 此 之 外 ， 构 造 函 数 没 有 设置 任何 其 他 字段 ， 它 们 都 是 延迟 初始 
化 。 当 调用 这 些 字段 的 getter 方法 时 ，getter 会 检查 needsCalc 是 否 为 真 。 如 果 为 真 ， 就 会 
立即 计算 这 些 字段 的 值 。 

计算 包括 创建 histogram， 它 记录 了 该 股票 特定 的 收盘 价 出 现在 哪些 天 。histogram 包含 的 
BigDecimal 和 Date 对 象 的 数据 与 prices 中 的 相同 ， 只 是 看 竺 数据 的 方式 不 同 。 


所 有 的 延迟 加 载 字段 都 可 以 由 prices 数组 计算 得 来 ， 所 以 它们 都 可 以 标记 为 transient， 
并 且 在 序列 化 和 反 序列 化 时 不 需要 为 它们 做 额外 的 工作 。 这 个 例子 比较 简单 ， 因 为 代码 已 
经 完成 了 字段 的 延迟 初始 化 ， 因 此 在 接收 数据 时 ， 可 以 一 直 延 迟 初 始 化 。 即 便 字段 要 即刻 
初始 化 ， 也 仍然 可 以 将 可 计算 字段 标记 为 transient， 而 在 read0bject() 方法 中 重新 计算 
它们 的 值 。 

注意 ， 上 述 做 法 也 维护 了 prices 和 histogran 对 象 之 间 的 关系 : 重新 计算 histogram 时 ， 
会 将 已 存在 的 对 象 塞 到 新 的 map 中 。 

这 种 做 法 在 绝 大 多 数 情况 下 都 能 收 到 优化 效果 ， 但 有 时 也 会 降低 性 能 。 表 10-11 就 是 这 种 
情况 ， 该 表 显 示 了 histogran 对 象 有 无 transient 字段 时 进行 序列 化 和 反 序列 化 所 花费 的 
时 间 ， 以 及 序列 化 数据 的 大 小 。 
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表 10-11: 序列 化 和 反 序列 化 对 象 (关于 transtent 字 段 ) 所 用 的 时 间 








对 象 序列 化 时 间 ( 秒 ) 反 序列 化 时 间 ( 秒 ) 数据 大 小 ( 字 节 ) 
没有 transient 字段 12.8 11.9 46 969 
histogram 为 transient 11.5 10.1 40 910 





目前 来 看 ， 这 个 例子 中 的 对 象 序列 化 和 反 序 列 化 节约 了 大 约 15% 的 时 间 。 但 这 个 测试 实际 
上 没有 在 接收 时 重建 histogran 对 象 : 对 象 只 有 在 接收 数据 的 代码 首次 对 其 进行 访问 时 才 
会 创建 。 

有 些 时 候 并 不 需要 histogram 对 象 ; 客户 端 可 能 只 关心 特定 日 子 里 的 股价 ， 而 不 是 整个 
histogram。 还 有 一 些 不 常见 的 情况 ， 比 如 如 果 总 是 需要 histogram， 且 测试 中 计算 所 有 的 
histogram 用 时 超过 了 3.1 秒 ， 那 么 延迟 初始 化 字段 就 确实 会 导致 性 能 下 降 。 

在 这 个 例子 中 ， 计 算 histogran 并 不 属于 这 种 情况 一 一 这 是 一 种 非常 快 的 操作 。 一 般 来 说 ， 重 
新 计算 数据 片段 的 代价 很 少 会 高 于 序列 化 和 反 序 列 化 数据 。 但 在 代码 优化 时 仍然 需要 考虑 。 
这 个 测试 实际 上 并 不 向 系统 外 传播 数据 ， 只 是 在 预先 分 配 的 字 节 数组 中 写 数据 和 读数 据 ， 
所 以 它 只 是 衡量 了 序列 化 和 反 序 列 化 所 用 的 时 间 。 另 外 ，histogran 字段 标 为 transient 也 
减少 了 13% 的 数据 大 小 。 通 过 网 络 传送 数据 时 ， 这 就 变 得 非常 重要 了 。 


10.5.3 ”压缩 序列 化 数据 

上 述 两 种 方法 引出 了 改善 序列 化 代码 性 能 的 第 3 种 方法 : 数据 序列 化 之 后 再 进行 压缩 ， 使 
得 它 可 以 更 快 地 在 慢 速 网 络 上 传输 。StockPriceHistoryCompress 在 序列 化 时 对 prices 进 
行 了 压缩 : 


public class StockPriceHistoryCompress 
implements StockPriceHistory, Serializable { 












































private byte[] zippedPrices; 
private transient SortedMap<Date, StockPrice> prices; 


private void writeObject(ObjectOutputStream out) 
throws IOException { 
if (zippedPrices == null) { 
makeZzippedPrices(); 


out.defaultWriteObject(); 
} 


private void readObject(ObjectInputStream in) 
throws IOException, ClassNotFoundException { 
in.defaultReadObject(); 
unzipPrices(); 


} 


protected void makeZzippedPrices() throws IOException { 
ByteArrayOutputStream baos = new ByteArrayOutputStream(); 
GZIPOutputStream zip = new GZIPOutputStream(baos ) ; 
ObjectOutputStream oos = new ObjectOutputStream( 





244 | 第 10 章 


new BufferedOutputStream(zip)); 
o0s.writeObject(prices); 
o0s.close(); 
zip.close(); 
zippedPrices = baos.toByteArray(); 


} 


protected void unzipprices() 

throws IOException, ClassNotFoundException { 
ByteArrayInputStream bais = new ByteArrayInputStream(zippedPrices); 
GZIPInputStream zip = new GZIPINnputStream(bais); 
ObjectInputStream ois = new ObjectInputStream( 

new BufferedInputStream(zip)); 
prices = (SortedMap<Date, StockPrice>) ois.readObject(); 
ois.close(); 
zip.close(); 


} 


makeZippedPrices() 将 prices 序列 化 成 字 节 数组 后 保存 , 然后 通常 在 writeobject() 中 调用 
defaultwriteobject() 进行 序列 化 。( 事 实 上 ， 如 果 可 以 定制 序列 化 ， 将 zippedPrices 数 
组 变 成 transient 直接 序列 化 数组 的 长 度 和 字 节 会 好 一 些 。 不 过 这 个 代码 示例 要 清楚 一 点 ， 
且 简 单一 些 也 更 好 。) 在 反 序 列 化 时 ， 操 作 反 过 来 执行 。 

如 果 目 标 是 序列 化 成 字 节 流 (就 像 原先 的 示例 代码 一 样 )， 这 就 是 个 糟糕 的 提议 。 这 并 不 
令 人 惊奇 ， 因 为 压缩 字 节 所 需 的 时 间 大 大 超过 了 写 入 本 地 字 节 数组 的 时 间 。 参 见 表 10-12。 


表 10-12: 10 000 个 对 象 序列 化 和 反 序 列 化 、 带 压缩 和 不 带 压缩 时 所 用 时 间 的 对 比 
































场景 序列 化 时 间 ( 秒 ) 反 序 列 化 时 间 ( 秒 ) ”数据 大 小 ( 字 节 ) 
无 压缩 19.1 8.0 41 170 

压缩 /解压 缩 26.8 12.7 5849 

仅 压缩 26.8 0.494 5849 











表 中 最 有 趣 的 是 最 后 一 行 。 在 该 轮 测 试 中 ， 数 据 在 发 送 前 进行 了 压缩 ， 但 readobject() 并 
没有 调用 unzipPrices()， 而 是 依据 需要 ， 在 客户 端 首次 调用 getPrice() 时 才 调 用 该 方法 。 
read0bject() 不 再 调用 unzipPrices() 后 ， 就 只 有 几 个 BigDecimal 对 象 需 要 反 序 列 化 ， 速 
度 非常 快 。 

在 这 个 例子 中 ， 很 可 能 会 出 现 客户 端 永远 不 需要 实际 的 股票 价格 的 情况 ， 客户 端 可 能 只 需 
要 调用 getHighPrice() 和 类 似 的 方法 获取 合计 数据 。 如 果 所 有 方法 都 是 只 在 需要 时 获取 数 
据 ， 那 么 延迟 解压 价格 数据 信息 就 能 节省 大 量 时 间 。 如 果 对 象 可 能 需要 持久 化 ， 延 迟 解压 
也 会 有 用 (〈 比 如， 备份 HTTP 会话 状态 ， 以 防 应 用 服务 器 失败 ) 。 延 迟 解压 既 节约 CPU 时 
间 (因为 跳 过 了 解压 )， 也 节约 内 存 (因为 压缩 后 的 数据 需要 的 内 存 空间 更 小 )。 


所 以 ， 即 便 应 用 在 高 速 局 域 网 络 中 运行 一 一 尤其 当 目 标 是 市 约 内 存 而 不 是 时 间 时 一 一 对 序 
列 化 数据 进行 压缩 并 延迟 解压 也 仍然 很 有 用 。 
























































注 2: 原文 是 “zipPrices”， 代 码 中 并 没有 此 方法 。 一 一 译 者 注 
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如 果 序 列 化 是 为 了 在 网 络 中 传输 ， 那 任何 数据 压缩 都 会 有 益处 。 表 10-13 同样 是 对 10 000 
个 股票 对 象 进行 序列 化 ， 不 过 这 次 它 将 数据 传 向 了 另 一 个 进程 。 这 个 进程 可 以 是 在 同一 个 
机 器 上 ， 也 可 以 在 通过 宽带 连接 访问 的 其 他 机 器 上 。 


表 10-13: 10 000 个 对 象 的 网 络 传输 时 间 对 比 















































对 象 同一 机 器 ( 秒 ) 宽带 广域网 ( 秒 ) 
无 压缩 30.1 150.1 
压缩 /解压 缩 41.3 54.3 
只 压缩 28.0 44.1 








同一 机 器 上 的 两 个 进程 之 间 的 网 络 通 信和 是 最 快 的 一 一 虽然 通信 数据 会 发 送 到 操作 系统 层 ， 
但 压根 不 用 通过 网 络 。 即 便 在 这 种 情况 下 ， 压 缩 数 据 和 延迟 解压 的 性 能 仍然 是 最 快 的 (至 
少 在 这 个 测试 中 是 如 此 一 一 但 小 数据 量 还 是 会 有 所 衰退 )。 可 以 预料 的 是 ， 一 旦 网 络 速度 
比较 慢 ， 传 输 数据 又 有 数量 级 上 的 差别 ， 总 的 耗费 时 间 就 会 有 巨大 的 差别 。 


10.5.4 追踪 对 象 复制 


本 节 先 介绍 一 个 示例 ， 如 何不 对 对 象 引 用 进行 序列 化 ， 以 避免 在 反 序列 化 时 处 理 对 象 引用 。 
然而 ，write0bject() 中 最 有 力 的 优化 是 不 重复 输出 对 象 引 用 。 在 StockPriceHistoryImpl 
中 ， 这 意味 着 不 重复 输出 prices map。 因 为 示例 采用 标准 JDK 中 的 map，JDK 的 类 已 经 
对 数据 的 序列 化 进行 了 优化 ， 所 以 我 们 不 用 担心 。 不 过 ， 了 解 这 些 类 如 何 进行 优化 、 理 解 
哪些 可 能 的 优化 都 是 有 益处 的 


StockPriceHistoryImpl 中 的 关键 结构 是 TreeMap。 图 10-2 是 一 个 简化 版 本 的 map。JVM 默 
认 先 序列 化 Node A 的 原生 数据 字段 ， 然 后 递归 调用 Node B 的 write0bject() (接着 是 Node 
C)。Node B 也 会 序列 化 它 自己 的 原生 数据 字段 ， 然 后 递归 序列 化 它 上 级 Node 的 字段 。 


但 是 请 注意 Node B 上 级 节点 Node A 已 经 被 序列 化 ， 怎 么 办 ?对 象 序 列 化 的 代码 很 智 
能 : 它 会 意识 到 这 一 点 ， 0 、 A 的 数据 。 相 反 ， 它 只 会 在 先前 序列 
化 的 数据 中 添加 一 个 对 象 引 用 。 


追踪 上 一 级 对 象 从 而 递归 所 有 对 象 ， 会 对 序列 化 的 性 能 有 少许 影响 。 但 正如 Point 数组 的 
例子 所 示 ， 这 是 无 法 避免 的 ; 必须 追踪 上 一 级 序列 化 的 对 象 以 便 正 确 恢 复 对 象 引 用 。 不 
过 ， 可 以 通过 压缩 对 象 引用 来 进行 智能 优化 ， 从 而 在 对 象 反 序列 化 时 易于 重建 。 
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上 级 (null) 





图 10-2: 简单 的 TreeMap 结构 图 











不 同 的 集 类 处 理 这 个 问题 的 方式 有 所 不 同 。 比 如 TreeMap， 它 只 是 遍历 树 然后 序列 化 键 值 ， 
丢弃 了 键 之 间 的 所 有 关系 (也 就 是 它们 的 排列 顺序 )。 在 反 序列 化 时 ，read0bject() 会 重 
新 排列 数据 并 生成 树 。 虽 然 排序 对 象 听 起 来 代价 很 昂贵 ， 但 实际 并 非 如 此 : 对 10 000 只 股 
票 而 言 ， 整 个 过 程 要 比 默 认 的 序列 化 快 20%， 默 认 机 制 需要 追踪 所 有 的 对 象 引 用 。 

需要 序列 化 的 对 象 减少 了 ， 因 此 TreeMap 也 能 从 优化 中 获 益 。map 中 的 Node 〈 在 JDK 中 
为 Entry) 包含 两 个 对 象 : 键 和 值 。 由 于 map 不 会 包含 两 个 相同 的 Node， 所 以 序列 化 保留 
Node 的 对 象 引 用 时 不 用 担心 。 在 这 种 情况 下 ， 它 不 会 序列 化 Node 对 象 本 身 ， 而 是 直接 序 
列 化 键 和 值 。 所 以 最 终 的 write0bject() 看 起 来 像 这 样 (为 便于 陪读， 代码 作 了 调整 ) : 


private void write0bject(ObjectOutputStream oos) throws IOException { 























for (Map.Entry<K,V> e : entrySet()) { 
oos.Write0bject(e.getKey() ); 
oos .Write0bject(e.getVaLue() ); 


3 


这 段 代 码 看 起 来 与 Point 示例 中 的 那 段 不 能 正常 工作 的 代码 非常 像 。 差 别 在 于 该 段 代 码 会 
序列 化 相同 的 对 象 。TreeMap 不 会 有 两 个 相同 的 Node， 所 以 没有 必要 序列 化 Node 引用 。 
TreeMap 可 以 有 相同 的 值 ， 所 以 值 必 须 序 列 化 成 对 象 引 用 。 


这 就 回 到 了 起 点 : 正如 我 在 本 闻 开 头 所 说 的 ， 正 确 优化 对 象 序列 化 非常 困难 。 但 当 对 象 序 
列 化 成 为 应 用 的 主要 瓶颈 时 ， 恰 当地 进行 优化 可 以 带 来 很 大 的 益处 。 























Java EE 性 能 调 优 | 247 








关于 Externalizable 接口 


本 节 没 有 讨论 另 一 种 优化 对 象 序列 化 的 方法 ， 即 实现 Externalizable 接口 而 不 是 
Serializable 接口 。 


实际 上 ， 这 两 个 接口 的 差别 在 于 它们 如 何 处 理 非 transient 字段 。 当 write0bject() 调 
用 defauLtWrite0bject() 时 ，Serializable 会 序列 化 非 transient 字段 。 但 Externa- 
lizable 没有 这 样 的 方法 。Externalizable 类 必须 显 式 序列 化 所 有 关注 的 字段 ， 无 论 
transient 与 否 。 

即便 一 个 对 象 中 的 所 有 字段 都 是 transient， 也 最 好 实现 Serializable 接口 ， 并 调用 
defauLtWrite0bject() 方法 。 这 使 得 代码 在 添加 ( 移 除 ) 字段 时 更 容易 维护 。 从 性 能 
的 角度 来 看 ，Externalizable 并 没有 特别 的 优点 : 最 终 影响 性 能 的 是 数据 量 的 大 小 。 








快速 小 结 

1. 数据 的 序列 化 ， 特 别 是 Java EE 中 的 序列 化 ， 有 可 能 是 很 大 的 性 能 瓶颈 。 

2. 将 变量 标记 为 transient 可 以 加 快 序列 化 ， 并 减少 传输 的 数据 量 。 这 些 
做 法 都 可 以 极 大 地 提高 性 能 ， 除 非 接收 方 重建 数据 需要 花费 很 长 时 间 。 

3. 其 他 write0bject() 和 read0bject() 方法 的 优化 也 可 以 显著 加 快 序列 
化 。 但 请 小 心 ， 因 为 这 容易 出 错 ， 而 且 不 留神 就 会 引入 不 易 察 觉 的 bug。 

4. 通常 在 序列 化 时 进行 压缩 都 有 益处 ， 即 便 数据 不 在 慢 速 网 络 上 传输 。 
































10.6 Java EE 网 络 API 


我 们 前 面 介绍 过 的 几 种 数据 交换 技术 一 一 XML 解析 、JSON 处 理 和 对 象 序列 化 一 一 可 以 在 
不 同 的 应 用 中 使 用 ， 但 主要 是 在 JAX-WS、JAX- RS 和 IOP/RMI 这 三 个 Java EE 网 络 API 
中 使 用 。 

这 些 API 的 协议 差别 很 大 ， 特 性 也 有 很 大 的 不 同 。 你 在 决定 为 何 使 用 它们 以 及 何 时 使 用 它 
们 时 ， 考 虑 的 首要 因素 就 是 它们 的 特性 。 关 于 它们 有 许多 争论 ， 比 如 JAX-RS 是 否 比 JAX- 
WS 快 ， 不 过 这 些 争 论 都 假设 有 这 样 一 个 通用 型 应 用 ， 这 个 应 用 可 以 用 两 种 框架 编写 。 如 
果 确 定 需要 安全 特性 ， 那 就 应 该 选择 JAX-WS， 而 不 管 它 与 JAX-RS 相 比 性 能 如 何 。 如 果 
应 用 必须 和 已 有 的 输出 IOP 接口 的 服务 器 通信 ， 那 么 选择 也 就 显而易见 了 。 


但 对 于 这 几 种 网 络 API 来 说 ， 它 们 需要 克服 的 性 能 问题 类 似 。 本 节 讨 论 其 中 的 一 些 困 难以 
及 如 何 处 理 这 些 困难 。 


调整 传输 数据 的 大 小 

影响 这 些 技术 性 能 的 首要 因素 是 数据 交换 ， 这 是 为 什么 本 章 花 那么 多 时 间 讨论 它 的 原因 之 
一 。 传 输 的 数据 量 应 该 尽量 小 ， 无 论 是 压缩 或 去 元 ， 或 者 其 他 技术 。 

一 方面 ， 发 起 一 次 网 络 调用 会 有 很 显著 的 网 络 开销 。 设 计 网 络 API 时 ， 应 该 设计 成 “ 粗 
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粒度 ”的 一 一 也 就 是 说 ， 最 好 一 次 调用 返回 大 量 数据 ， 使 得 客户 端 发 起 的 网 络 调用 总 数 最 
小 。 这 个 原则 与 减少 数据 交换 量 相 违背 ， 所 以 必须 做 些 权 衡 。 

可 以 在 前 面 股票 RESTful Web 服务 平均 响应 时 间 的 测试 中 观察 到 这 种 平衡 。 可 以 将 服务 设 
计 成 只 返回 一 段 时 期 内 的 基本 数据 (最 高 价 、 最 低 价 、 平 均 价 和 标准 差 );， 也 可 以 设计 成 
在 返回 这 些 基 本 数据 的 同时 再 加 上 这 期 间 每 天 的 日 数据 。 


如 果 预 先知 道 客户 端 要 如 何 使 用 数据 ， 就 能 很 容易 且 精 确 地 知道 会 返回 哪些 数据 。 但 是 ， 
实际 情况 并 不 总 是 这 样 。 在 这 个 例子 中 ， 比 如 说 客户 端 请 求 某 只 股票 5 年 的 历史 数据 ， 那 
开始 时 客户 端 应 用 只 会 向 用 户 展示 概要 数据 。 如 果 用 户 想 深入 了 解数 据 ， 查 看 单个 股票 的 
日 数据 ， 那 会 发 生 什么 ?是 否 所 有 数据 都 应 该 在 第 一 次 调用 中 返回 给 客户 端 ， 使 得 查看 详 
情 时 无 需 再 次 发 起 网 络 调 用 ? 是 否 应 该 只 返回 概要 数据 ， 而 在 用 户 想 要 了 解 某 年 详情 时 ， 
程序 才 再 次 发 起 调用 获得 那 年 的 日 数据 ? 是 否 第 二 次 调用 应 该 获取 整个 5 年 的 历史 数据 ， 
即便 此 时 用 户 只 想 看 第 三 年 的 数据 ? 

为 了 确定 此 处 该 用 哪 种 策略 ， 可 以 比较 一 下 返回 全 部 数据 的 时 间 和 多 次 网 络 调 用 的 时 间 。 
表 10-14 显示 了 在 不 同 场 景 下 获取 数据 的 平均 响应 时 间 。 

(1) 客户 端 请 求 1 年 的 数据 。 

(2) 客户 端 请 求 1 年 的 概要 数据 。 

(3) 客户 端 请 求 5 年 的 数据 。 

(4) 客户 端 发 起 2 次 请 求 : 先 请 求 概 要 数据 ， 然 后 进一步 请 求 特定 时 间 的 详细 数据 。 

(5) 客户 端 发 起 10 个 请 求 : 1 个 概要 请 求 ， 加 上 9 个 特定 时 间 详 细 数 据 的 请 求 。 


这 些 测试 是 在 我 的 宽带 连接 下 进行 的 。 宫 无 疑问 ， 网 络 速 度 对 报告 的 时 间 有 巨大 影响 ( 参 
见 表 10-14) 。 


表 10-14: 各 种 场景 下 RESTful 的 平均 响应 时 间 










































































场景 平均 响应 时 间 ( 毫秒 ) ”数据 量 ( 字 节 ) 

1 年 数据 90 30K 

1 年 概要 数据 30 60 

5 年 数据 300 186 K 

2 次 概要 请 求 60 2 次 调用 ， 每 次 60 
10 次 概要 请 求 280 10 次 调用 ， 每 次 60 





获取 一 整 年 完整 数据 的 时 间 并 不 比 只 获取 概要 数据 长 太 多 ， 所 以 如 果 用 户 只 需要 获取 其 中 
的 三 个 数据 片段 ， 那 一 次 性 返回 整个 数据 集 总 是 更 好 的 选择 。 
不 过 5 年 的 概要 数据 有 点 不 同 : 数据 编组 和 发 送 所 需 的 时 间 要 长 得 多 ， 所 以 在 总 时 间 达 到 
平等 前 ， 用 户 需要 发 起 11 个 获取 详情 的 请 求 。 

本 例 中 的 时 间 包 括 将 RESTful 服务 返回 的 JSON 数据 编组 的 时 间 ， 这 个 时 间 取 决 于 数据 有 
多 少年 。 但 是 多 个 客户 端 可 能 会 请 求 相同 的 数据 集 ， 这 种 情况 可 以 重用 之 前 编 好 组 的 数 
据 。 如 果 编 好 组 的 数据 已 经 计算 好 ， 响 应 时 间 的 拐点 就 会 有 很 大 的 不 同 ， 如 表 10-15 所 示 。 
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表 10-15: 各 种 场景 下 〈 响 应 有 缓存 ) RESTful 的 平均 响应 时 间 








场景 平均 响应 时 间 ( 毫秒 ) 
1 年 数据 50 
1 年 概要 数据 30 
5 年 数据 90 





2 次 概要 请 求 60 
10 次 概要 请 求 270 





由 于 调用 一 次 概要 数据 的 开销 基本 不 变 ， 所 以 概要 数据 的 响应 时 间 差别 很 小 。 而 获取 1 年 
和 5 年 完整 数据 的 时 间 只 是 在 传输 数据 上 ， 明 显 少 于 之 前 数据 需要 计算 和 编组 的 情况 。 一 
般 来 说 ， 可 以 返回 给 客户 端 大 量 可 能 并 不 需要 的 数据 ， 而 没有 太 多 性 能 上 的 损耗 。 























网 络 已 今 非 萌 比 
虽然 我 看 起 来 不 太 像 老 左 国 ， 但 我 确实 曾经 用 300 波 特 的 调制 解 调 器 连接 过 远程 网 络 。 
(幸运 的 是 ， 我 不 必 穿 过 4 英尺 厚 的 雪 步 行 5 英里 到 学 校 。) 对 于 这 种 情况 ， 传 统 上 的 
偏见 会 认为 有 许多 的 网 络 调用 。 


如 今 ， 我 打开 浏览 器 ,每 次 项 入 一 些 字符 时 ， 都 会 调用 远程 的 Google 服务器， 然后 
它 会 返回 给 我 一 些 文 字 ， 辅 助 我 进行 一 些 搜索 。Google 已 经 算出 ， 完 成 调用 大 约 需要 
200 毫秒 或 更 少 ， 这 种 延迟 时 间 并 不 会 引起 我 的 注意 。 


随 着 网 络 速 度 越 来 越 快 ， 本 节 我 所 讨论 的 权宜 之 计 会 变 得 越 来 越 不 重要 。 另 一 方面 ， 
我 的 智能 手机 大 多 数 时 候 都 有 幸 能 使 用 快速 的 3G 信号 ， 一 年 中 少数 时 候 我 在 海洋 上 ， 
我 也 很 有 幸 可 以 通过 卫星 连接 互联 网 。 更 快 的 硬件 (或 网 络 ) 总 是 有 助 于 性 能 的 提 
升 ， 但 却 不 能 以 此 替代 性 能 设计 。 如 果 应 用 可 以 检测 出 正 处 于 快速 网 络 ， 就 能 进行 快 
速 细 致 的 网 络 调用 ,这 会 是 一 个 很 好 的 特性 。 要 确保 应 用 可 以 正常 工作 ， 无 论 它 部 署 
在 哪里 。 








10.7 “小 结 


Java EE 应 用 的 性 能 依赖 于 好 几 个 因素 。 其 中 应 用 代码 的 质量 永远 是 最 主要 的 。 而 且 ， 
为 用 到 了 许多 外 部 资源 ， 所 以 应 用 服务 器 的 性 能 瓶颈 通常 并 不 在 Java 层 。 


许多 影响 应 用 服务 器 性 能 的 因素 并 不 只 是 针对 Java EE 一 一 尤其 是 线程 的 性 能 、 对 象 池 和 


网 络 性 能 。 对 应 用 服务 器 而 言 ， 最 重要 的 影响 因素 是 它 传输 或 处 理 的 数据 量 


自 


























无 论 是 简 








单 的 HIML， 还 是 XML、 序列 化 对 象 状 态 或 JSON 等 。 本 章 列 出 的 实践 有 助 于 你 最 大 限 


度 地 发 挥 可 用 资源 对 应 用 服务 器 的 作用 。 
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数据 库 性 能 的 最 佳 实践 





本 章 主要 探讨 由 Java 驱动 的 数据 库 应 用 的 性 能 。 访 问 数 据 库 的 应 用 程序 经 常会 受制 于 一 些 
与 Java 不 直接 相关 的 性 能 问题 ， 璧 如 使 用 的 数据 库 有 VO 瓶 天 ， 或 者 由 于 关键 索引 缺失 ， 
导致 SQL 查询 需要 做 全 表 扫 描 。 要 解决 这 些 问 题 ， 不 必 调 优 JVM， 也 不 需要 修改 应 用 代 
码 。 处 理 数据 库 相 关 的 性 能 问题 需要 我 们 (从 其 他 的 源头 ) 了 解 如 何 为 数据 库 应 用 编程 及 
调 优 。 

但 这 并 不 是 说 ， 使 用 数据 库 的 应 用 的 性 能 与 JVM 管理 的 对 象 及 使 用 的 Java 技术 没有 多 少 
相关 性 。 恰 恰 相 反 ， 为 了 获得 更 优 的 性 能 ， 我 们 要 确保 数据 库 和 应 用 都 得 到 最 好 的 调 优 ， 
运行 于 最 佳 的 代码 路 径 之 上 。 

















示例 数据 库 
本 章 的 例子 使 用 了 一 个 样本 数据 库 ， 存 储 了 128 支 股票 全 年 的 交易 数据 。 一 年 中 有 
261 个 工作 日 。 
每 支 股票 的 交易 价格 保存 在 一 张 名 为 “STOCKPRICE” 的 表 内 ， 这 张 表 的 主键 分 别 是 
股票 代号 和 交易 日 期 。 所 以 这 张 表 中 有 33 408 条 记录 ( 即 128 x 261) 。 
每 一 支 股票 都 有 由 五 个 相关 的 期 权 构 成 的 集合 ， 这 些 期 权 也 都 是 每 日 订 价 。 
“STOCKOPTIONPRICE” 表 保存 的 数据 包括 股票 代码 、 日 期 和 代表 期 权 编 号 的 整 型 
数 ， 其 中 股票 代码 是 主键 。 所 以 这 个 表 和 包含 167 040 行 数据 ( 即 128x261x5)。 








11.1 JDBC 


本 章 从 Java 持久 化 API (Java Persistence API，JPA) 的 角度 讨论 数据 库 的 性 能 





JPA 当 





之 5 引 








前 的 版 本 是 2.0。 然 而 ，JPA 的 底层 调用 也 是 JDBC， 很 多 程序 员 在 编写 程序 时 还 是 喜欢 在 
应 用 代码 中 直接 调用 JDBC 接口 一 一 因此 ， 这 也 是 我 们 调查 JDBC 性 能 问题 时 重要 的 一 方 
看 。 即 使 应 用 程序 已 经 使 用 了 JPA (或 者 其 他 的 数据 库 框 架 )， 理 解 哪些 方面 会 影响 JDBC 
的 性 能 对 我 们 最 大 限度 地 提升 框架 性 能 的 目标 也 是 相当 有 益 的 。 


11.1.1 JDBC 驱 动 程序 


JDBC 驱动 程序 是 影响 数据 库 应 用 程序 性 能 的 诸多 因素 中 最 重要 的 一 个 。 儿 平 每 种 数据 库 
都 提供 了 自己 的 JDBC 驱动 程序 ， 大 多 数 流 行 的 数据 库 往往 还 有 第 三 方 厂商 的 JDBC 驱动 
程序 可 用 。 通 常情 况 下 ， 使 用 第 三 方 驱动 程序 的 原因 都 是 它们 能 提供 更 好 的 性 能 。 


我 无 法 对 所 有 数据 库 驱动 程序 的 性 能 表现 作 裁 决 ， 但 是 我 们 可 以 在 这 里 探讨 评估 不 同 数据 
库 驱 动 程序 时 应 该 考虑 的 因素 。 


1. 工作 于 何 处 进行 

JDBC 驱动 程序 的 实现 有 两 种 选择 ， 要 么 在 Java 应 用 端 ( 即 数据 库 的 客户 端 ) 完成 更 多 的 
工作 ， 要 么 将 工作 推迟 到 数据 库 服务 器 端 进行 。 阅 释 这 个 问题 最 合适 的 例子 是 Oracle 数据 
库 的 “ 瘦 驱 动 程序 ”和 “ 胖 驱 动 程序 ”。 瘦 驱动 程序 的 实现 对 Java 应 用 程序 自身 的 影响 极 
小 ， 它 依赖 数据 库 服务 器 进行 更 多 的 处 理工 作 。 胖 驱动 程序 的 实现 与 此 相反 : 它 将 数据 库 
的 工作 迁移 到 Java 客户 端 来 完成 ， 代 价 是 客户 端 会 消耗 更 多 的 处 理 能 力 和 更 多 的 内 存 。 大 
多 数 的 数据 库 都 提供 了 类 似 的 方案 。 


关于 哪 种 模式 能 提供 更 好 的 性 能 ， 有 诸多 的 争论。 实际 上 ， 这 两 种 模式 都 不 能 提供 以 不 变 
应 万 变 的 优势 即 到 底 采 用 哪 种 驱动 程序 能 获得 最 好 的 性 能 往往 取决 于 具体 的 运行 环 
境 。 壁 如 ， 应 用 程序 运行 的 服务 器 比较 弱 ， 是 个 双核 的 机 器 ， 它 连接 的 是 一 个 性 能 强大 、 
调 优良 好 的 数据 库 服 务 器 ， 那 么 在 这 种 情况 下 ,很 可 能 应 用 还 没 施 加 多 大 的 压力 到 数据 
库 ， 应 用 服务 器 自身 的 CPU 就 已 经 达到 了 100%。 这 种 情况 下 ， 使 用 “ 瘦 客 户 端 ”类 型 的 
驱动 程序 往往 能 获得 更 好 的 性 能 。 与 此 相反 ， 在 一 个 大 型 企业 中 ，100 多 个 部 门 都 需要 访 
问 人 力 资源 数据 库 时 ， 尽 量 保留 数据 库 服 务 器 的 资源 ， 部 署 “ 胖 客户 端 ”型 的 驱动 程序 才 
能 获得 更 好 的 性 能 。 

这 就 是 我 们 谈论 JDBC 驱动 程序 的 性 能 时 要 保持 谨慎 怀疑 态度 的 原因 : 经 常会 出 现 这 样 的 
情况 ， 即 某 个 驱动 程序 在 特定 的 环境 下 表现 的 性 能 优 于 其 他 供应 商 ， 但 在 你 自己 的 环境 
中 ， 采 用 同样 的 配置 效果 却 不 尽 人 意 。 尽 量 在 你 自己 的 环境 中 进行 测试 ， 务必 确保 你 的 测 
试 环境 与 你 将 来 部 署 的 生产 环境 保持 一 致 。 

2. JDBC 驱 动 程序 的 类 型 

JDBC 驱动 程序 可 以 划分 为 四 种 类 型 (1-4)。 目 前 使 用 最 广泛 的 是 2 型 (使 用 本 地 代码 ) 
和 4 型 ( 纯 Java 代码 )。 















































































































































1 
型 驱动 程序 通常 性 能 都 不 好 ， 尽 量 避 








免 使 用 ODBC。 
3 型 和 4 型 的 驱动 程序 都 采用 纯 Java 语言 编号， 但 是 3 型 的 驱动 程序 通常 是 为 特定 的 架构 
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而 设计 的 ， 这 些 架 构 中 ， 中 间 件 的 某 些 部 分 (有 时 也 可 能 是 应 用 服务 器 ， 不 过 绝 大 多 时 候 
都 不 是 ) 会 对 中 间 结 果 进 行 翻译 。 在 这 种 架构 中 ，JDBC 客户 端 程序 (通常 是 独立 的 程序 ， 
不 过 最 稼 见 的 还 是 应 用 服务 器 ) 向 中 间 件 发 送 JDBC 协议 报 文 ， 中 间 件 解析 这 些 请 求 ， 将 
其 转译 为 数据 库 协议 ， 并 转发 到 数据 库 服务 器 (对 数据 库 返 回 的 数据 采用 逆向 的 转译 )。 
这 种 架构 有 时 是 必 不 可 少 的 : 中 间 件 部 署 在 网 络 的 非 军事 区 (Demilitarized Zone，DMZ )， 
为 访问 数据 库 的 连接 提供 额外 的 安全 保护 。 从 性 能 的 角度 看 ， 这 种 部 署 方式 既 有 其 优势 也 
有 其 次 端 。 中 间 件 可 以 对 数据 库 中 的 记录 进行 缓存 ， 而 这 能 减轻 数据 库 服务 器 的 压力 (在 
某 种 程度 上 让 它 跑 得 更 快 )， 能 够 更 快 地 返回 客户 端 请 求 的 数据 (降低 了 请 求 的 延迟 )。 不 
过 ， 如 果 关 闭 了 中 间 件 的 缓存 ， 数 据 库 访问 的 性 能 就 会 受到 影响 ， 因 为 每 次 数据 库 操作 都 
要 经 历 两 次 网 络 往返 。 理 想 的 情况 下 ， 这 些 因素 可 以 忽略 不 计 (或 者 由 于 缓存 ， 数 据 的 请 
求 响应 得 更 快 )。 

然而 在 实际 生产 环境 中 ， 这 种 架构 并 没有 广泛 地 部 署 (一 如 往常 ， 情 况 总 在 不 断 地 变 
人 化。 譬如， 甲骨文 公司 为 它 的 分 布 式 远 程 连接 池 (Distributed Remote Connection Pool， 
DRCP) 提供 了 JDBC 驱动 程序 ， 这 是 一 种 3 型 驱动 程序 ， 不 过 它 和 4 型 JDBC 驱动 程 
序 一 样 也 采用 了 JAR 文件 作为 发 布 的 格式 ， 但 是 ， 对 于 终端 用 户 而 言 ，JDBC 驱动 程序 
到 底 是 3 型 还 是 4 型 并 不 是 那么 重要 )。 通 常情 况 下 ， 将 应 用 服务 器 部 署 到 中 间 层 (如 果 
有 必要 ， 就 部 署 到 DMZ 之 内 ) 是 更 容易 的 方案 。 这 样 ， 应 用 服务 器 既 能 完成 正常 的 数 
据 库 操 作 ， 又 不 必 为 客户 端 提 供 任何 JDBC 的 接口 : 由 于 提供 了 诸如 servlet 接口 、Web 
Service 接口 等 等 这 样 的 服务 ， 架 构 的 灵活 性 增强 了 ， 客 户 端 不 再 需要 了 解 任 何 数据 库 内 
部 的 细节 。 

这 之 后 剩 下 的 是 2 型 和 4 型 驱动 程序 ， 但 是 跟 其 他 的 驱动 程序 比 起 来 ， 这 二 者 中 的 任何 一 
个 都 不 具备 与 生 俱 来 的 性 能 优势 。2 型 驱动 程序 会 受 JNI 引入 的 开销 影响 ， 但 是 设计 良好 
的 2 型 驱动 程序 能 避免 这 样 的 问题 。 不 要 将 驱动 程序 的 类 型 (2 型 或 4 型 ) 和 前 文 介绍 过 
的 驱动 程序 的 特征 它 是 “ 胖 驱 动 程序 ”还 是 “ 瘦 驱 动 程序 ”混为一谈 。 虽 然 2 型 驱动 
程序 往往 具有 胖 驱 动 程序 的 特征 ， 但 4 型 驱动 程序 通常 表现 出 瘦 驱 动 程序 的 特点 ， 但 是 这 
并 非 严 格 意义 上 的 要 求 。 最 后 ， 选 择 2 型 驱动 程序 还 是 4 型 驱动 程序 ， 取 决 于 你 的 环境 以 
及 具体 的 驱动 程序 。 并 没有 一 种 先 验 的 方法 能 判断 哪 种 方式 一 定 能 获得 更 好 的 性 能 。 


快速 小 结 

1. 花 时 间 评 估 挑 选 出 最 适合 你 的 应 用 程序 的 JDBC 驱动 程序 。 

2. 最 合适 的 驱动 程序 往往 依 特定 的 部 署 环境 而 有 所 不 同 。 对 同样 的 应 用 程 
序 ， 在 一 个 部 署 环境 中 可 能 要 使 用 JDBC 驱动 程序 ， 在 另 一 个 部 署 环 境 
中 则 要 采用 不 同 的 JDBC 驱动 程序 ， 才 能 有 更 好 的 性 能 。 

3. 如果 可 以 选择 ， 尽 量 避 免 使 用 ODBC 和 JDBC 1 型 的 驱动 程序 。 


11.1.2” 预 处 理 语句 和 语句 池 


大 多 数 情 况 下 ， 代 码 中 车 要 进行 JDBC 调用 ， 推 荐 使 用 PreparedStatement， 尽 量 避 免 直接 
使 用 Statement。 这 二 者 的 区 别 在 于 预 处 理 语句 让 数据 库 有 机 会 重用 已 经 执行 过 的 SQL 信 
息 。 而 这 能 够 帮助 节省 之 后 运行 的 预 处 理 语句 的 开销 ， 提 升 执行 效率 。 
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“重用 ”这 个 词 用 在 这 儿 是 相当 贴切 的 : 首次 使 用 预 处 理 语 句 时 数据 库 会 耗费 更 多 的 执行 
时 间 ， 因 为 它 需要 设置 和 保存 相应 的 信息 。 如 果 这 个 语句 仅 使 用 一 次 ， 这 些 额 外 的 工作 就 
被 浪费 了 ， 这 种 情况 下 ， 使 用 常规 的 语句 (Statement) 可 能 是 更 好 的 选择 。 

对 只 进行 少量 数据 库 调 用 的 批 处 理 类 型 (batch-oriented) 的 程序 ， 选 择 Statement 接口 能 
证 程序 更 迅速 地 完成 工作 。 但 是 批 处 理 类 型 的 程序 也 可 能 发 起 成 百 上 千 的 JDBC 调用 ， 不 
过 调用 的 对 象 都 是 几乎 一 样 的 几 个 SQL 语句 ， 后 者 就 是 本 章 要 讨论 的 对 象 ， 它 使 用 批 处 理 
程序 加 载 一 个 含有 10 000 条 股票 记录 的 数据 库 。 需 要 处 理 大 量 JDBC 调用 的 批 处 理 程序 ， 
包括 生命 周期 内 要 服务 大 量 请 求 的 应 用 服务 器 ， 使 用 PreparedStatement 接口 都 能 取得 较 
好 的 效果 (JPA 这 样 的 数据 库 框架 会 自动 采用 这 样 的 接口 ) 。 

对 预 处 理 语句 进行 池 化 (pooled) ， 才 能 体现 出 预 处 理 语句 的 性 能 优势 一 即 实际 生产 中 ， 
重用 PreparedStatement 对 象 才 能 更 显著 地 提升 性 能 。 为 了 更 好 地 进行 “ 池 化 ”， 我 们 需要 
注意 两 件 事 ， 即 JDBC 连接 池 以 及 JDBC 驱动 程序 的 配置 (语句 池 根 据 数据 库 供 应 商 的 不 
同 ， 也 常常 被 称 作 语 句 缓存 ，Statement Caching)。 这 些 配 置 选项 适用 于 任何 使 用 JDBC 
的 应 用 程序 ， 无 论 它 们 是 直接 使 用 JDBC 驱动 程序 ， 还 是 以 JPA 的 方式 间接 调用 JDBC。 

1. 设置 语句 池 〈statement pool) 

预 处 理 语句 池 基 于 每 个 连接 进行 工作 。 如 果 程 序 的 一 个 线程 从 池内 取得 一 个 JDBC 连接 ， 
并 以 此 为 基础 创建 一 个 预 处 理 语 句 ， 那 么 所 有 跟 这 个 语句 相关 的 内 容 都 仅 在 该 连接 的 生命 
周期 内 有 效 。 第 二 个 线程 会 使 用 新 的 连接 创建 自己 的 预 处 理 语句 连接 池 实 例 。 最 终 ， 每 个 
连接 对 象 都 会 创建 自己 的 预 处 理 语 句 池 ， 服 务 于 应 用 程序 (假设 它们 在 应 用 程序 的 生命 周 
期 中 会 一 直 被 使 用 )。 

这 就 是 为 什么 独立 的 JDBC 应 用 应 该 使 用 连接 池 的 原因 之 一 (JPA 会 为 Java SE 的 应 用 程 
序 创 建 一 个 连接 池 ， 并 且 这 个 过 程 是 透明 的 ，Java EE 环境 中 ， 程 序 可 以 使 用 应 用 服务 器 
的 连接 池 )。 这 也 意味 着 连接 池 的 大 小 是 非常 重要 的 (无论 是 使 用 JDBC 还 是 使 用 JPA 的 
程序 )。 在 程序 的 早期 运行 中 ， 这 一 点 尤其 重要 : 如 果 连 接 没 有 使 用 预 处 理 语句 ， 第 一 个 
请 求 的 处 理 就 会 比较 慢 。 选 择 合适 的 连接 池 大 小 也 非常 重要 ， 因 为 连接 池 要 缓存 预 处 理 语 
句 ， 而 这 些 预 处 理 语 句 的 缓存 会 占用 堆 空 间 (并 且 通 常 是 大 量 的 堆 空间 )。 这 种 情况 下 ， 
对 象 重用 当然 是 件 好 事 ， 但 是 你 还 需要 考察 重用 的 对 象 要 占用 多 少 堆 空间 ， 以 避免 对 GC 
时 间 产 生 负 面 的 影响 。 

2. 语句 池 的 管理 

使 用 预 处 理 语句 池 时 第 二 件 要 特别 注意 的 事 是 哪些 代码 会 实际 地 创建 和 管理 池 。 预 处 理 
语句 池 在 JDBC 3.0 中 首次 引入 ， 它 提供 了 一 个 方法 ( 即 ConnectionPooLDataSource 类 的 
setMaxStatements() 方法) 用 于 开启 和 禁用 语句 池 。 如 果 传 递 给 setMaxStatements() 方 
法 的 参数 是 0 语句 池 就 被 禁用 。 这 个 接口 并 未 明确 定义 语句 池 在 什么 地 方 创建 一 一 是 在 
JDBC 驱动 程序 层面 还 是 在 其 他 的 层面 上 ， 辟 如 应 用 服务 器 上 。 这 个 单一 的 接口 无 法 适 配 
所 有 的 JDBC 驱动 程序 ， 有 些 情况 还 需要 额外 的 配置 才能 满足 需要 。 

因此 ， 编写 直 接 进行 JDBC 调用 的 Java SE 应 用 时 ， 你 有 两 个 选择 : 要 么 通过 配置 JDBC 
驱动 程序 来 创建 和 管理 语句 池 ， 要 么 在 应 用 程序 代码 中 创建 和 管理 语句 池 。Java EE 的 应 
用 有 两 种 可 能 性 〈 略 微 不 同 ) : 由 JDBC 驱动 程序 来 创建 和 管理 语句 池 ， 或 者 由 应 用 服务 
器 来 创建 和 管理 语句 池 。 
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这 里 最 麻烦 的 问题 是 这 个 领域 没有 统一 的 标准 。 有 的 JDBC 驱动 程序 根本 没有 提供 语句 池 
的 机 制 ， 它 们 的 开发 者 希望 能 简化 驱动 程序 的 结构 ， 由 应 用 服务 器 来 完成 语句 池 的 管理 。 
有 的 应 用 服务 器 并 未 提供 语句 池 管 理 的 功能 ， 它 们 希望 由 JDBC 驱动 程序 来 进行 这 方面 的 
工作 ， 不 愿意 覆盖 复杂 的 语句 池 管 理 。 这 两 种 观点 都 有 一 定 的 道理 (不 过 ， 如 果 JDBC 驱 
动 程序 不 提供 语句 池 管 理 机 制 ， 这 副 重 担 就 落 在 了 应 用 程序 开发 者 的 肩 上 )。 最 终 ， 你 要 
厘清 不 同方 案 的 利弊 ， 确 保 语 句 池 在 某 个 地 方 创建 。 

由 于 没有 公认 的 标准 ， 你 可 能 会 磁 到 JDBC 驱动 程序 和 应 用 服务 器 同时 支持 预 处 理 语 句 池 
的 情况 。 这 时 ， 确 保 只 有 一 方 在 管理 预 处 理 语句 池 是 非常 重要 的 。 从 性 能 的 角度 出 发 ,更 
好 的 选择 取决 于 驱动 程序 和 应 用 服务 器 的 组 合 。 通 用 的 原则 是 ， 我 们 可 以 期 望 JDBC 驱动 
程序 在 语句 池 的 管理 上 性 能 更 优 。 这 是 因为 驱动 程序 (通常 情况 下 ) 是 针对 特定 的 数据 库 
开发 的 ， 会 针对 这 种 数据 库 进 行 相应 的 优化 ， 而 更 通用 的 应 用 服务 器 代码 很 难 做 到 这 
一 点 。 

想 要 了 解 如 何 开局 某 个 JDBC 驱动 程序 的 语句 池 (或 者 缓存 池 ) 功能 ， 可 以 查询 驱动 程序 
的 文档 。 很 多 时 候 ， 你 只 需要 将 驱动 程序 的 maxStatements 属性 设 定 为 期 望 的 值 〈 即 语句 
连接 池 的 大 小 ) 就 完成 了 配置 的 工作 。 另 一 些 驱动 程序 可 能 还 需要 进行 额外 的 设置 ( 壁 
如 ，Oracle 的 JDBC 驱动 程序 就 需要 设置 某 些 属性 ， 并 依 此 决定 使 用 隐 式 的 语句 池 还 是 显 
示 的 语句 池 )。 


快速 小 结 

1. Java 应 用 程序 通常 都 会 重复 地 运行 同样 的 SQL 语句 。 这 些 情况 下 ， 重 用 
预 处 理 语句 池 能 极 大 地 提升 程序 的 性 能 。 

2. 预 处 理 语句 必须 依 单个 连接 进行 池 化 。 大 多 数 的 JDBC 驱动 程序 和 Java 
EE 框架 默认 都 提供 了 这 一 功能 。 

3. 预 处 理 语 句 会 消耗 大 量 的 堆 空间 。 我 们 需要 仔细 调 优 语句 池 的 大 小 ， 避 
免 由 于 对 大 量 大 型 对 象 池 化 而 引起 GC 方面 的 问题 。 
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11.1.3” ”JDBC 连接 池 


创建 数据 库 连 接 是 非常 耗 时 的 操作 ， 因 此 ，JDBC 连接 是 Java 程序 中 应 该 尽量 重用 的 典型 
对 象 。 

在 Java EE 的 环境 中 ， 所 有 的 JDBC 连接 都 源 自 应 用 服务 器 的 连接 池 。 在 使 用 JPA 的 
Java SE 环境 中 ， 大 多 数 的 JPA 提供 商都 默认 使 用 一 个 连接 池 ， 你 可 以 通过 配置 文件 
persistence.xml 对 连接 池 进 行 自 定义 。 单 机 版 的 Java SE 环境 里 ， 连 接 是 由 应 用 程序 来 控 
制 的 。 对 于 最 后 一 种 情况 ， 你 可 以 从 连接 池 的 第 三 方 库 中 选择 其 一 进行 构建 ， 这 些 库 从 很 
多 渠道 都 能 找到 。 不 过 ， 对 于 单独 的 应 用 程序 ， 很 多 时 候 ， 最 简单 的 方式 是 为 每 个 线程 创 
建 一 个 连接 ， 将 它 保 存在 线程 的 本 地 变量 

一 如 往常 ， 平衡 池 化 对 象 的 内 存 占用 以 及 由 于 池 化 触发 的 额外 GC 数量 是 非常 重要 的 。 由 
于 预 处 理 语句 缓存 的 开销 ， 这 一 点 变 得 尤其 要 紧 。 实 际 的 连接 对 象 可 能 不 是 非常 大 ， 但 是 
语句 缓存 (它们 建立 在 每 个 连接 的 基础 之 上 ) 可 以 变 得 非常 大 。 
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这 种 情况 下 ， 数 据 库 也 需要 寻求 适当 的 平衡 。 每 个 数据 库 的 连接 都 需要 数据 库 分 配 资源 
(此 外 ， 应 用 程序 还 要 消耗 一 定 的 内 存 )。 随 着 连接 不 断 地 添加 到 数据 库 ， 数 据 库 需 要 的 资 
源 越 来 越 多 : 它 会 为 每 个 JDBC 驱动 程序 使 用 的 预 处 理 语 名 分 配 更 多 的 内 存 。 如 有 果 应 用 服 
务 器 开局 了 过 多 的 连接 ， 数 据 库 的 性 能 会 受到 负面 的 影响 。 

对 于 连接 池 而 言 ， 首 要 的 原则 是 应 用 的 每 个 线程 都 持 有 一 个 连接 。 对 应 用 服务 器 而 言 ， 则 是 
初始 时 将 线程 他 和 连接 池 的 大 小 设置 为 同一 值 。 对 单一 的 应 用 程序 ， 则 是 依据 应 用 程序 创建 
的 线程 数 调 整 连接 池 的 大 小 。 典 型 的 情况 下 ， 这 种 设置 能 取得 最 好 的 性 能 ， 所 有 的 程序 线程 
都 不 需要 等 待 数据 库 连接 的 释放 ， 数 据 库 亦 有 足够 的 资源 处 理 来 自 应 用 程序 的 负荷。 
然而 ， 如 果 数 据 库 成 为 新 有 颈 ， 采 用 这 条 规则 可 能 会 适得其反 。 向 一 个 太 弱 的 数据 库 施 加 过 多 
的 连接 是 对 前 一 原则 的 男 一 种 阐释 ， 即 疝 一 个 已 经 非常 繁忙 的 系统 增 大 负荷 只 会 降低 它 的 性 
能 。 这 种 情况 下 ， 使 用 连接 池 限制 施加 到 数据 库 的 负 具 可 以 改善 程序 的 性 能 。 这 时 应 用 程序 
线程 需要 等 竺 空闲 连 接 ， 不 过 如 果 数 据 库 没有 被 压 垮 的 话 ， 总 的 系统 吞吐 量 会 提升 。 


快速 小 结 

1. 数据 库 连 接 对 象 初始 化 的 代价 是 昂贵 的 。 所 以 在 Java 语言 中 ， 它 们 通常 
都 会 采用 池 技 术 进 行 管理 一 一 要 么 是 通过 JDBC 驱动 程序 自身 管理 ， 要 
么 在 Java EE 和 JPA 框架 中 进行 管理 。 

2. 跟 其 他 的 对 象 池 一 样 ， 对 连接 池 的 调 优 也 是 非常 重要 的 ， 我 们 需要 确保 
连接 池 不 会 对 垃圾 收集 造成 负面 的 影响 。 为 了 达到 这 个 目标 ， 调 优 连接 
池 ， 避 免 对 数据 库 自身 的 性 能 产生 负面 影响 也 是 非常 有 必要 的 。 


11.1.4 事务 


应 用 程序 拥有 合理 的 需求 ， 这 些 需 求 最 终 可 以 指导 事务 如 何 被 正确 地 处 理 。 要 求 “ 重 
读 ”(repeatable-read) 语义 的 事务 会 比 只 要 求 “提交 读 ”(read-committed) 语义 的 事务 慢 ， 
但 是 了 解 这 些 对 于 无 法 接受 “ 非 重 复读 ”的 应 用 程序 而 言 没 有 太 多 的 实际 参考 意义 。 
此 ， 虽 然 这 一 布 讨论 的 主要 是 如 何 末 应 用 程序 构造 使 用 最 小 隔离 集 的 语义 ， 但 也 不 要 一 
障 目地 试图 用 高 性 能 掩盖 程序 的 确切 需求 。 

数据 库 的 事务 有 两 类 性 能 代价 。 首 先 ， 数 据 库 事 务 的 设置 和 提交 都 会 耗费 时 间 。 这 个 过 
程 包括 确保 对 数据 库 的 修改 都 已 经 完全 保存 到 磁盘 ， 检 查 数据 库 事 务 日 志 的 一 致 性 ， 等 
等 。 其 次 ， 数 据 库 事务 进行 期 间 ， 通 常事 务 都 要 对 部 分 数据 加 锁 〈 不 一 定 总 是 行 锁 ， 不 
过 这 里 我 们 会 以 行 锁 作 为 例子 ) 。 如 果 两 个 事务 在 同一 个 数据 库 行 锁 上 发 生 竞争 ， 应 用 的 
可 扩展 性 就 会 受 影响 。 从 Java 语言 的 角度 看 ， 这 种 行为 跟 第 9 章 讨 论 的 竞争 锁 及 非 竞争 
锁 很 相似 。 

为 了 优化 性 能 ， 我 们 需要 考虑 这 些 问题 ， 如 何 调整 程序 ， 优 化 事务 的 实现 ， 让 事务 自身 更 
加 高 效 ， 以 及 在 事务 中 如 何 持 有 锁 ， 才 能 让 应 用 程序 的 整体 性 能 有 更 好 的 扩展 性 。 

1. JDBC 事 务 的 控制 

本 节 对 事务 的 介绍 包括 两 种 形式 ， 同 时 涵盖 使 用 JDBC 和 JPA 的 应 用 ， 不 过 JPA 管理 事务 
的 方式 不 大 一 样 (本 章 后 续 内 容 会 详细 探讨 这 些 细节 )。 对 于 使 用 JDBC 应 用 ， 事 务 的 开 
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始 和 结束 都 基于 如 何 使 用 Connection 对 象 。 


在 基础 的 JDBC 使 用 中 ， 连 接 提供 了 自动 提交 (autocommit) 模式 (通过 setAutoCommit() 
方法 设置 )。 如 果 开 启 自动 提交 模式 (对 大 多 数 的 JDBC 驱动 程序 ， 这 个 选项 是 默认 开启 
0 则 JDBC 程序 中 的 每 个 语句 自身 都 是 一 个 事务 。 这 种 情况 下 ， 程 序 不 需要 额外 提交 
事务 (事实 上 ， 如 果 调 用 了 commit() 方法 ， 性 能 反而 可 能 会 恶化 ) 。 


如 果 自 动 提 交 被 关闭 ， 那 么 事务 默认 于 连接 对 象 第 一 次 调用 时 开始 (譬如 ， 调 用 
executeQuery() 方法 时 )。 事 务 持续 运行 直到 commit() 方法 (或 者 roLLback() 方法) 被 调 
用 。 新 的 事务 在 下 一 次 数据 库 调用 连接 操作 时 开始 。 


医务 的 提交 操作 是 非常 昂贵 的 ， 因 此 我 们 的 目标 之 一 是 尽 可 能 在 一 次 事务 中 完成 更 多 的 工 
作 。 不 幸 的 是 ， 这 个 目标 与 我 们 的 另 一 个 目标 几乎 是 南 辕 北 辐 ， 因为 事务 需要 持 有 锁 ， 所 
以 它们 应 该 在 尽 可 能 短 的 时 间 内 完成 。 很 明显 ， 我 们 需要 在 二 者 之 间 进 行 权衡 ， 如 何 进行 
平衡 取决 于 应 用 程序 以 及 它 的 锁 需 求 。 下 一 市 探讨 事务 隔离 及 锁 时 会 对 此 作 进 一 步 讨论 ， 
这 里 首先 看 看 事务 处 理 自身 有 哪些 优化 选项 。 


下 面 这 段 代码 用 于 向 数据 库 中 播 入 数据 供 股票 应 用 使 用 。 为 使 每 天 的 数据 有 效 ， 一 行 数据 
会 被 插入 到 STOCKPRICE 表 ， 五 行 数据 插入 到 STOCKOPTIONPRICE 表 。 | 
目标 ， 一 个 基本 的 循环 如 下 所 示 : 


Connection C = DriverManager .getConnection(URL, user, pw); 
PreparedStatement ps = c.prepareStatement(insertStockSQL); 
PreparedStatement ps2 = c.prepareStatement(insertOptionSQL)) { 
Date curDate = new Date(startDate.getTime()); 
while (!curDate.after(endDate)) { 
StockPrice sp = createRandomStock(symbol, curDate); 
if (sp != null) { 
ps.clearPparameters(); 
ps.setBigDecimal(1, sp.getClosingPrice()); 
// 其 余 字 段 使 用 类 似 的 集 调 用 
ps.executeUpdate(); 
for (int j = 0; j < 5; j++) { 
ps2.clearPparameters(); 
ps2.setBigDecimal(1, ...); 
// 其 余 字 段 使 用 类 似 的 集 调用 
ps2.executeUpdate(); 
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} 
} // 其 余 的 curDate 是 周末 , 故 被 略 过 
curDate.setTime(curDate.getTime() + msPerDay); 


} 


如 果 开 始 和 结束 的 日 期 表示 的 是 2013 年 ,那么 这 个 循环 会 插入 261 行 记录 到 
STOCKPRICE 表 (通过 第 一 次 调用 的 executeUpdate() 方 法 )， 并 插入 1305 行 记 录 到 
STOCKOPTIONPRICE 表 (通过 内 部 的 for 循环 )。 若 使 用 默认 的 自动 提交 模式 ， 就 意味 
着 会 有 1566 个 相互 独立 的 事务 ， 而 这 将 是 相当 昂贵 的 。 

如 果 关 闭 自 动 提交 模式 ， 在 循环 结束 时 显 式 地 调用 提交 操作 能 够 获得 更 好 的 性 能 


Connection c = DriverManager .getConnection(URL，User，pw); 
c.setAutoCommit(false); 
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while (!curDate.after(endDate)) { 


} 


Cc.commit(); 


从 逻辑 的 观点 来 看 ， 这 可 能 也 更 合理 : 数据 库 中 要 么 保存 一 整 年 的 数据 ， 要 么 就 没有 任何 
数据 。 
如 果 这 个 循环 被 用 于 多 个 股票 的 计算 ， 就 会 又 面临 一 个 选择 ， 即 是 一 次 性 提交 所 有 的 数 
据 ， 还 是 一 次 提交 一 年 的 数据 : 

Connection c = DriverManager .getConnection(URL, user, pw); 

c.setAutoCommit(false); 

for (int i = 0; i < numStocks; i++) { 


curDate = startDate; 
while (!curdate.after(endDate)) { 






































} 
//c.commit(); // 一 次 提交 一 年 的 数据 
} 
c.commit(); // 一 次 性 提交 所 有 的 数据 
一 次 性 提交 所 有 的 数据 能 获得 最 高 的 性 能 ， 这 就 是 注释 排除 其 他 选项 的 原因 。 不 过 ， 这 个 
例子 中 ， 还 有 一 种 合理 的 情况 ， 在 其 场景 下 应 用 的 语义 可 能 要 求 单独 提交 每 一 年 的 数据 。 
有 时 候 ， 其 他 的 需求 可 能 会 与 获取 最 佳 性 能 的 尝试 发 生 冲 突 。 
每 次 executeUpdate() 方法 在 上 述 代 码 中 运行 时 ， 数 据 库 就 会 进行 一 次 远程 方法 调用 ， 执 
行 一 些 工 作 。 此 外 ， 更 新 表 时 ， 数 据 会 被 加 锁 (至 少 要 确保 另 一 个 事务 不 能 使 用 同样 的 符 
号 和 日 期 向 表 内 插入 记录 )。 这 个 例子 中 ， 通 过 批量 插入 可 以 进一步 优化 事务 的 处 理 。 插 
入 批量 化 时 ，JDBC 驱动 程序 会 保持 这 些 数据 ， 直 到 批量 插入 完成 ， 之 后 所 有 的 语句 会 被 
发 送 到 一 个 远程 JDBC 调用 中 。 
下 面 展示 了 批量 处 理 是 如 何 实 现 的 : 


for (int i = 0; i < numStocks; i++) { 
while (!curdate.after(endDate)) { 



























































ps.addBatch(); // 杰 换 executeUpdate() 调 用 
for (int j = 0; j < 5; j++) { 








ps2.addBatch(); // 蔡 换 executeUpdate() 调 用 
} 
} 
} 
ps.executeBatch(); 
ps2.executeBatch(); 
Cc.commit(); 


这 段 代 码 同 样 还 能 用 于 依据 每 支 股 票 进行 批量 执行 (在 while 循环 之 后 )。 有 些 JDBC 驱动 
程序 对 它们 能 够 批量 执行 的 语句 数 做 了 限制 (批量 处 理 的 确 会 消耗 应 用 程序 的 内 存 )， 所 
以 ， 即 使 可 以 在 整个 操作 完成 之 后 再 进行 提交 ， 批 量 处 理 还 是 需要 频繁 地 执行 。 
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这 些 优化 措施 对 性 能 的 提升 是 非常 明显 的 。 表 11-1 展示 了 将 128 支 股票 一 年 的 数据 插入 数 
据 库 所 花费 的 时 间 (总 计 200 448 次 插入 操作 )。 


表 11-1: 插入 128 支 股票 数据 的 耗 时 
































编程 模式 消耗 时 间 ( 秒 ) DB 访问 次 数 DB 提交 次 数 
启用 自动 提交 ， 不 使 用 批 处 理 2220.53 200 448 200 448 
每 支 股票 提交 一 次 174.44 200 448 128 

所 有 数据 一 次 性 提交 169.34 200 448 1 

每 支 股 票 的 每 次 提交 都 用 一 次 批 处 理 完 成 19.32 128 128 
每 支 股票 都 用 一 次 批 处 理 完成 , 1 次 提交 17.33 128 1 

所 有 的 股票 用 一 次 批 处 理 完成 , 1 次 提交 11.55 1 i 














注意 ， 这 张 表 中 有 一 个 有 趣 的 事实 ， 不 过 并 不 明显 : 第 一 行 和 第 二 行 的 差别 在 于 自动 提交 
被 关闭 了 ， 代 码 在 每 个 while 循环 的 结尾 显 式 地 调用 commit() 方法 完成 提交 。 第 一 行 和 第 
四 行 的 差别 是 语句 被 批 处 理 (batched) 了 一 一 不 过 自动 提交 还 是 开启 的 。 一 次 批 处 理 调用 
被 当成 一 个 事务 ， 这 也 是 为 什么 数据 库 调 用 和 提交 是 一 一 对 应 关系 的 原因 。 这 个 例子 告诉 
我 们 ， 通 过 批 处 理 实现 的 性 能 提升 要 明显 高 于 显 式 地 进行 事务 控制 。 
2. 事务 隔离 和 锁 
影响 事务 性 能 的 第 二 个 因素 与 数据 库 的 扩展 性 相关 ， 因 为 事务 中 的 数据 会 被 锁定 。 锁 机 
制 能 保证 数据 的 完整 性 ， 用 数据 库 的 术语 来 说 ， 它 让 一 个 事务 与 其 他 的 事务 相互 隔离 。 
JDBC 和 JPA 都 支持 四 种 主要 的 数据 库 事 务 隔离 模式 ， 不 过 在 具体 的 实现 方式 上 各 有 不 同 。 
虽然 使 用 正确 的 隔离 模式 〈Isolation Mode) 进行 程序 设计 实际 上 并 不 是 一 个 纯 Java 的 问 
题 ， 我 们 还 是 会 简短 地 介绍 下 隔离 模式 。 要 了 解 更 多 相关 信息 ， 请 参考 数据 库 编 程 相关 的 
书籍 。 
基本 的 事务 隔离 模式 如 下 所 列 (依照 开销 最 大 到 最 小 的 顺序 )。 
TRANSACTION_SERIALIZABLE 
这 是 最 昂贵 的 事务 模式 ， 它 要 求 在 事务 进行 期 间 ， 事 务 涉 及 的 所 有 数据 都 被 锁定 。 通 过 
主键 访问 数据 以 及 通过 WHERE 子 句 访问 数据 都 属于 这 种 情况 : 使 用 WHERE 子 句 时 ， 
表 被 锁定 ， 避 免 事务 进 行 期 间 有 新 的 满足 WHERE 语句 的 记录 被 加 入 。 序 列 化 事务 每 次 
查询 时 看 到 的 数据 都 是 一 样 的 。 
TRANSACTION_REPEATABLE_READ 
这 种 模式 下 要 求 事务 进行 期 间 ， 所 有 访问 的 数据 都 被 锁定 。 不 过 ， 其 他 的 事务 可 以 随时 
在 表 中 插入 新 的 行 。 这 种 模式 下 可 能 会 发 生 “ 幻 读 ”(phantom read) ， 即 事务 再 次 执行 
带 有 WHERE 子 句 的 查询 语句 时 ， 第 二 次 可 能 会 得 到 不 同 的 数据 。 
TRANSACTION_READ COMMITTED 
使 用 这 种 模式 上 时， 事务 运行 期 间 只 有 正在 写 入 的 行 会 被 锁定 。 这 种 模式 可 能 会 发 生 “ 不 
可 重复 读 ” (nonrepeatable read) ， 即 在 事务 进行 中 ， 一 个 时 间 点 读 到 的 数据 到 另 一 个 时 
间 点 再 次 读 取 时 ， 就 变 得 完全 不 同 了 。 
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TRANSACTION_READ_UNCOMMITTED 
这 是 代价 最 低 的 事务 模式 。 事 务 运行 期 间 不 会 施加 任何 锁 ， 因 此 一 个 事务 可 以 同时 读 取 
另 一 个 事务 写 和 人 〈 但 尚未 提交 ) 的 数据 。 这 就 是 著名 的 “ 脏 读 ”(dirty read) ; 由 于 首 
次 的 事务 可 能 会 回 深 (意味 着 写 入 操作 实际 并 未 发 生 )， 因 此 可 能 会 导致 一 系列 的 问题 ， 
因为 一 旦 发 生 这 种 情况 ， 第 二 次 的 事务 就 是 对 非法 数据 进行 操作 。 

数据 库 都 按照 自己 默认 的 事务 隔离 模式 进行 工作 : MySQL 默认 使 用 TRANSACTION_ 

REPEATABLE_READ; Oracle 和 DB2 默认 使 用 TRANSACTION_READ_COMMITTED; 

诸如 此 类 。 除 此 之 外 ， 还 有 很 多 与 具体 数据 库 相 关 的 事务 隔离 模式 变种 。DB2 称 他 们 

默认 的 事务 模式 为 CS ( 意 为 游标 稳定 性 ，cursor stability) ， 对 其 他 的 三 种 JDBC 模式 

亦 采 用 不 同 的 命名 。Oracle 数据 库 不 支持 TRANSACTION_READ_UNCOMMITTED 和 

TRANSACTION_REPEATABLE_READ 事务 类 型 。 


JDBC 语句 执行 时 ， 使 用 数据 库 默 认 的 隔离 模式 。 另 一 方面 ,调用 JDBC 连接 的 
setTransaction() 方法 也 可 以 控制 数据 库 支持 需要 的 事务 隔离 级 (如 果 数 据 库 无 法 支持 指 
定 的 级 别 ，JDBC 驱动 程序 会 抛 出 一 个 异常 ， 或 者 自动 将 隔离 级 升级 到 它 支 持 的 下 一 个 更 
严格 的 隔离 级 ) 。 
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TRANSACTION_NONE 和 自动 提交 


JDBC 规范 定义 了 第 五 种 事务 模式 ， 就 是 本 节 讨 论 的 TRANSACTION_ NONE。 理 
论 上 ， 这 种 事务 模式 不 能 通过 setTransactionIsoLation() 方法 设置 ， 因 为 如 果 事 
务 已 经 存在 ， 它 的 隔离 级 就 不 能 被 设置 为 none。 不 过 有 的 JDBC 驱动 程序 (最 著名 
的 是 DB2) 的 确 允 许 进行 这 样 的 调用 (实际 上 ， 它 甚至 允许 将 默认 隔离 级 设置 为 
TRANSACTION_NONE) 。 另 一 些 JDBC 驱动 程序 允许 在 初始 化 驱动 程序 时 通过 属性 
设置 隔离 级 为 none。 


严格 来 说 ， 使 用 TRANSACTION_NONE 语义 的 连接 执行 语句 时 是 无 法 向 数据 库 提 交 
数据 的 : 它 只 能 是 只 读 的 查询 操作 。 如 果 有 数据 写 入 ， 必 须 添加 某 种 锁 ; 否则 ， 如 果 
一 个 用 户 使 用 TRANSACTION_NONE 语义 向 一 个 表 写 入 一 个 很 长 的 字符 串 ， 另 一 个 
用 户 可 能 仅 会 看 到 写 入 表 中 的 这 个 字符 串 的 一 部 分 。 可 能 有 些 数据 库 会 以 这 种 模式 运 
行 ， 不 过 数量 会 非常 少 ; 最 起 码 ， 向 一 张 表 写 入 数据 的 操作 应 该 是 原子 操作 。 因 此 ， 
生产 环境 中 的 写 操作 至 少 应 该 使 用 TRANSACTION_READ_UNCOMMITTED 语义 。 


使 用 TRANSACTION_NONE 语义 的 查询 是 无 法 提交 的 ， 但 是 如 果 JDBC 驱动 程序 使 
用 TRANSACTION_NONE 隔离 级 同时 又 开启 了 自动 提交 ， 有 可 能 允许 写 操作 。 这 总 
味 着 数据 库 将 每 个 查询 语句 当成 一 个 独立 的 事务 。 即 使 如 此 ， 由 于 数据 库 (很 可 能 
不 允许 其 他 的 事务 看 到 部 分 写 入 的 数据 ， 所 以 实际 使 用 的 隔离 级 是 TRANSACTION_ 
READ_UNCOMMITTED。 














对 于 简单 的 JDBC 程序 ， 这 就 已 经 足够 了 。 更 常见 的 情况 是 一 一 尤其 是 使 用 JPA 的 时 
候 一 一 程序 希望 在 一 个 事务 内 混合 使 用 不 同 的 隔离 级 。 对 一 个 查询 我 的 员工 信息 并 最 终 据 
此 进行 薪资 调整 的 应 用 程序 而 言 ， 它 需要 访问 我 的 员工 记录 ， 这 部 分 数据 必须 被 保护 : 这 
些 数据 应 该 采用 TRANSACTION_REPEATABLE_READ 隔离 级 。 不 过 同一 个 事务 还 可 能 
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需要 访问 其 他 表 中 的 数据 ， 璧 如 保存 我 的 办 公 室 编号 的 表 。 对 于 这 部 分 数据 ， 没 有 必要 在 
事务 中 进行 锁定 ， 因 此 访问 这 些 行 时 当然 可 以 采用 TRANSACTION_READ_COMMITTED 
隔离 级 (其 至 是 更 低 的 隔离 级 )。 


JPA 让 你 可 以 依据 每 个 实体 设 定 锁 的 级 别 (当然 实体 一 通常 至 少 是 数据 库 中 的 一 
行 )。 由 于 合理 设置 这 些 锁 的 级 别 是 相当 困难 的 ， 因 此 相对 于 直接 使 用 JDBC 语句 设置 锁 ， 
TS ee 
到 与 JDBC 应 用 中 使 用 不 同 锁 级 别 同 样 的 效果 〈 如 果 你 对 这 些 语义 还 不 是 很 熟悉 ， 可 通过 
下 面 这 个 例子 来 熟悉 这 些 概念 )。 
在 JDBC 层次 上 ， 基 本 的 方式 是 将 连接 的 隔离 级 设置 为 TRANSACTION_READ_ 
UNCOMMITTED， 之 后 按照 需要 显 式 地 对 事务 中 的 数据 上 锁 : 
Connection c = DriverManager .getConnection(); // 或 …… 从 本 地 池 中 获取 
c.setAutoCommit(false); 
c.setTransactionIsolation(TRANSACTION_READ_UNCOMMITTED); 
PreparedStatement ps1 = c.prepareStatement( 
"SELECT * FROM empLoyee WHERE e@ id = ? FOR UPDATE"); 
… 处 理 来 自 ps1 的 信息 …… 
PreparedStatement ps2 = c.prepareStatement( 
"SELECT * FROM office WHERE office id = ?"); 
… 处 理 来 自 ps2 的 信息 …… 
CcC.commit(); 
psl 语句 显 式 地 在 员工 数据 表 上 设置 了 一 把 锁 : 在 这 次 事务 进行 过 程 中 ， 其 他 事务 都 无 法 
访问 这 行 数据 。 实 现 这 个 目的 的 SQL 格式 并 不 是 标准 的 。 你 需要 根据 你 的 数据 库 提供 商 的 
文档 ， 查 找 获 得 所 需 的 锁 级 别 的 方法 ， 但 通常 的 格式 是 包含 FOR UPDATE 子 句 。 这 种 类 
型 的 锁 被 称 为 翡 观 锁 (pessimistic locking)。 它 有 效 地 阻止 了 其 他 的 事务 ， 使 其 不 得 访问 保 
护 的 数据 。 


锁 的 性 能 通常 可 以 通过 使 用 乐观 锁 (optimistic locking) 的 方式 改善 
concurrent .atomic 解决 无 竞争 原子 操作 (uncontended atomic operation ) 人 
如 果 数 据 访问 不 存在 竞争 ， 采 用 乐观 锁 能 显著 提升 程序 的 性 能 。 然 而 ， 如 果 数 据 访问 存在 
竞争 ， 程 序 设计 就 变 得 更 加 复杂 。 
对 于 数据 库 而 言 ， 乐 观 并 发 是 通过 版 本 列 实现 的 。 从 一 行 中 选择 数据 时 ， 选 择 项 必须 包含 
期 望 的 数据 及 版 本 列 。 辟 如， 为 了 获取 关于 我 的 信息 ， 可 以 使 用 下 面 的 SQL 话 句 : 
SELECT first_name, last_name, version FROM employee WHERE e_id = 5058; 
文 个 查询 会 返回 我 的 名 字 (Scott 和 Oaks) 以 及 当前 的 版 本 号 (譬如 1012)。 事 务 完成 时 ， 
会 更 新 当前 的 版 本 列 : 
UPDATE empLoyee SET version = 1013 WHERE e_id = 5058 AND version = 1012; 
如 果 访 问 的 行 要 求 重复 读 取 或 者 序列 化 语义 ， 那 么 即使 事务 中 只 是 对 数据 做 读 操 作 也 需要 


更 新 版 本 号 一 一 这 些 隔离 级 要 求 对 事务 中 的 只 读数 据 进行 锁定 。 对 于 读 一 提交 语义 ， 只 有 
在 该 行 中 的 其 他 数据 发 生 更 新 时 才 需 要 更 新 版 本 号 。 


这 种 模式 下， 如果 两 个 事务 同时 使 用 我 的 员工 记录 ， 则 每 个 都 会 读 取 版 本 号 为 1012 的 数 
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据 。 第 一 个 事务 会 更 新 数据 的 版 本 号 到 1013 并 继续 运行 。 此 后 ， 第 二 个 事务 就 无 法 更 新 
员工 记录 了 一 一 因为 表 中 不 再 有 版 本 号 为 1012 的 记录 ， 因 此 SQL 更 新 的 语句 会 失败 。 该 
事务 会 接 到 一 个 异常 并 回 滚 。 

这 个 例子 展示 了 数据 库 的 乐观 锁 与 Java 的 原子 原 语 之 间 的 主要 差异 : 在 数据 库 编程 中 ， 事 
务 收 到 异常 时 ， 是 不 会 进行 (也 无 法 进行 ) 透明 的 重 试 的 。 如 果 你 直接 对 JDBC 进行 编 
程 ，commit() 方法 会 收 到 一 个 SQLException; 在 JPA 中 ,事务 提交 时 ， 你 的 应 用 程序 会 收 
到 一 个 OptimisticLockException。 


根据 你 看 问题 的 角度 ， 这 可 能 是 件 好 事 ， 也 可 能 是 件 坏事 。 讨 论 原子 工具 集 的 性 能 时 ( 它 
们 不 会 透明 地 进行 重 试 操 作 )， 我 观察 到 冲突 频 莹 的 情况 下 ， 如 果 有 大 量 的 重 试 操作 ， 程 
序 的 性 能 会 受到 极 大 的 影响 ， 因 为 重 试 会 占用 大 量 的 CPU 资源。 对 数据 库 应 用 来 说 ， 这 
种 情况 会 更 加 严重 ， 因 为 事务 中 的 代码 运行 比 简单 地 增加 内 存 某 个 区 间 的 值 要 复杂 得 多 。 
在 数据 库 应 用 中 ， 重 试 失败 的 乐观 事务 对 性 能 的 影响 要 大 得 多 ， 它 可 能 会 导致 永 无 止境 的 
重 试 死 循 环 。 除 此 之 外 ， 很 多 时 候 我 们 无 法 判断 哪些 操作 能 自动 地 进行 重 试 。 
因此 ， 不 提供 自动 重 试 机 制 也 许 是 件 好 事 (很 多 时 候 是 唯一 可 行 的 方案 )， 但 是 另 一 方面 ， 
这 并 不 是 说 应 用 程序 现在 不 负责 处 理 异常 。 应 用 程序 可 以 选择 重 试 事务 (可 能 是 一 次 或 者 
两 次 )， 可 以 选择 提示 用 户 请 求 不 同 的 输入 ， 或 者 它 可 以 简单 地 通知 用 户 操作 失败 。 这 个 
问题 也 没有 普遍 适用 的 答案 。 
如 果 两 个 数据 狐 之 间 极 少 有 机 会 发 生 碰撞 ， 则 使 用 乐观 锁 工 作 是 最 好 的 。 假 设 有 一 个 联合 
票 账 户 出 现 了 这 样 的 情况 : 丈夫 和 妻子 在 城市 的 不 同 地方 ， 几 乎 在 同一 个 时 刻 从 这 个 联 
合 账户 中 提取 现金 。 这 会 为 我 们 触发 一 个 乐观 锁 异常 。 即 使 这 样 的 情况 发 生 ， 要 求 我 们 中 
的 一 个 重 试 也 并 不 是 太 繁 重 的 任务 ， 现 在 发 生 乐观 锁 异常 的 机 会 就 几乎 是 零 了 (或 者 我 希 
望 如 此 : 我 们 不 需要 解决 以 多 高 的 频率 从 ATM 机 上 提取 现金 的 问题 ) 。 与 刚才 的 场景 在 革 
种 程度 上 完全 相反 的 是 样本 股票 的 应 用 。 真 实 世 界 中 ， 这 些 数据 更 新 得 如 此 频 紫 ， 使 用 乐 
观 锁 只 能 适得其反 。 实 际 上 ， 由 于 变化 的 数量 庞大 ， 股 票 应 用 更 频 紧 使 用 的 是 无 锁 机 制 ， 
不 过 实际 的 交易 更 新 还 是 会 使 用 某 种 类 型 的 锁 。 


快速 小 结 

1. 事务 会 从 两 个 方面 影响 应 用 程序 的 性 能 : 事务 提交 是 非常 昂贵 的 ， 与 事 
务 相 关 的 锁 机 制 会 限制 数据 库 的 扩展 性 。 

2. 这 两 个 方面 的 效果 是 相互 制约 的 : 为 了 提交 事务 而 等 待 太 长 时 间 会 增 大 

事务 相关 锁 的 持 有 时 间 。 尤 其 是 对 使 用 严格 语义 的 事务 来 说 ， 平 衡 的 方 
式 是 使 用 更 多 更 频繁 的 提交 来 取代 长 时 间 地 持 有 锁 。 

3. JDBC 中 为 了 细 粒 度 地 控制 事务 ， 可 以 默认 使 用 TRANSACTION_READ_ 
UNCOMMITTED 隔离 级 ， 然 后 显 式 地 按 需 锁定 数据 。 
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11.1.5 ”结果 集 的 处 理 


典型 的 数据 库 应 用 会 对 一 个 区 间 的 数据 进行 操作 。 璧 如 股票 应 用 要 对 某 支 股票 的 历史 价格 
进行 处 理 。 通 过 一 条 SELECT 语句 可 以 将 历史 记录 和 载 入 : 
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SELECT * FROM stockprice WHERE symbol = 'TPKS' AND 
pricedate >= '2013-01-01' AND pricedate <= '2013-12-31'; 


这 条 语句 会 返回 261 条 数据 记录 。 如 果 还 需要 对 应 股票 的 股价 ， 可 以 采用 类 似 的 查询 得 到 
五 倍数 量 的 记录 。 歼 取样 本 数据 库 中 所 有 数据 (128 支 股 票 一 年 的 数据 ) 的 SQL 语句 会 返 
回 200 448 条 数据 记录 。 

SELECT * FROM stockprice s, stockoptionprice o WHERE 


Oo.symbol = s.symbol AND s.pricedate >= '2013-01-01' 
AND s.pricedate <= '2013-12-31'; 


为 了 使 用 这 些 数据 ， 代 码 需 要 遍历 结果 集 : 


PreparedStatement ps = c.prepareStatement(...); 
ResultSet rs = ps.executeQuery(); 
while (rs.next()) { 

2 读 取 当前 的 行 :……: 


























} 


这 里 就 有 一 个 问题 ， 即 这 200 448 条 记录 保存 在 什么 地 方 。 如 果 整 个 结果 集 的 数据 都 在 执 
行 executeQuery() 调用 时 返回 ， 应 用 程序 就 会 在 它 的 堆 内 保存 大 量 的 活跃 数据 ， 而 这 可 能 
会 导致 GC 或 者 其 他 的 问题 。 与 此 相反 ， 如 果 只 返回 调用 next() 方法 时 的 一 行 数据 ， 在 处 
理 结 果 集 时 ， 应 用 和 数据 库 之 间 就 会 有 大 量 的 往返 流量 。 
与 之 前 一 样 ， 这 个 问题 也 没有 所 谓 的 正确 答案 ， 在 有 的 情况 下 ， 在 数据 库 中 保持 大 多 数 的 
数据 ， 需 要 时 进行 提取 是 更 高 效 的 方法 ， 而 在 另 一 些 场景 里 ， 查 询 时 一 次 性 地 将 所 有 的 数 
据 返回 可 能 会 更 高 效 。 通 过 PreparedStatement 对 象 的 setFetchSize() 方法 可 以 控制 这 些 
行为 ， 它 能 通知 JDBC 驱动 程序 一 次 返回 多 少 行 数据 。 

这 个 参数 的 默认 值 随 JDBC 驱动 程序 的 不 同 而 异 ， 壁 如 对 Oracle 的 JDBC 驱动 程序 ， 该 默 
认 值 是 10。 在 上 面 展 示 的 循环 语句 中 调用 executeQuery() 方法 ，Oracle 数据 库 会 返回 10 
行 数据 ， 返 回 的 数据 会 由 JDBC 驱动 程序 在 内 部 缓存 。 头 10 次 next() 方法 的 调用 都 直接 
从 缓存 行 中 读 取 ， 返 回 其 中 的 一 条 记录 。 第 11 次 调用 该 方法 时 ，JDBC 驱动 程序 会 向 数据 
库 发 出 请 求 ， 取 得 另 10 行 数据 ， 如 此 周而复始 。 



















































































设置 提取 缓冲 区 大 小 的 其 他 方法 

前 面 我 们 曾 推荐 使 用 〈 预 处 理 ) 语句 对 象 的 setFetchSize() 方法 ， 但 是 该 方法 依赖 于 
ResultSet 接口 。 在 任何 情况 下 ， 设 置 的 提取 缓存 区 的 大 小 都 只 是 建议 值 。JDBC 驱动 
程序 可 以 自由 决定 是 要 忽略 该 设置 ， 还 是 将 其 圆 整 为 其 他 的 值 ， 亦 或 是 设置 为 它 期 户 
的 任何 值 。 没 有 任何 一 个 方法 能 一 劳 永 选 地 保证 设置 一 定 的 工作 ， 但 是 在 查询 之 前 设 
置 该 参数 能 获得 更 多 的 机 会 采用 你 期 望 的 缓冲 区 大 小 。 

如 果 连 接 是 通过 向 DriverManager 的 getConnection() 方法 传递 参数 的 方式 创建 ， 那 么 
有 些 JDBC 了 驱动 程序 也 允许 你 设置 默认 的 提取 缓冲 区 大 小 。 你 可 能 需要 查看 你 供应 商 
的 文档， 判断 到 底 哪 种 方法 对 你 而 言 更 容易 。 














虽然 各 JDBC 驱动 程序 的 默认 提取 缓冲 区 大 小 各 有 不 同 ， 不 过 它们 的 典型 特征 是 都 相当 
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小 。 这 种 设置 在 大 多 数 情况 下 是 合理 的 ， 尤 其 是 ， 这 种 设置 不 大 可 能 会 引起 应 用 程序 的 内 
存 问题 。 不 过 如 果 next() 方法 的 性 能 时 不 时 地 非常 慢 (或 者 结果 集 的 首次 查询 方法 性 能 很 
差 )， 你 可 能 就 需要 考虑 增 大 提取 缓冲 区 的 大 小 。 


快速 小 结 

1. 需要 查询 处 理 大 量 数据 的 应 用 程序 应 该 考虑 增 大 数据 提取 缓冲 区 的 大 小 。 

2. 我 们 总 是 面临 着 一 个 取舍 ， 即 在 应 用 程序 中 载 入 大 量 的 数据 (直接 导致 
垃圾 收集 器 面临 巨大 的 压力 )， 还 是 频繁 地 进行 数据 库 调 用 ， 每 次 获取 数 
据 集 的 一 部 分 。 



































11.2 JPA 


JPA 的 性 能 直接 受 底层 JDBC 驱动 程序 的 影响 ， 大 多 数 影响 JDBC 驱动 程序 性 能 的 因素 都 
同样 作用 于 JPA。 除 此 之 外 ，JPA 的 性 能 还 受 一 些 额 外 因素 的 影响 。 


通过 调整 实体 类 的 字 节 码 能 够 实现 很 多 的 JPA 性 能 提升 。 在 Java EE 的 环境 中 ， 这 种 性 能 
的 提升 是 无 颖 透明 的 。 在 Java SE 的 环境 中 ， 确 保 使 用 正确 的 字 节 码 的 处 理 方式 是 非常 重 
要 的 。 否 则 ，JPA 应 用 程序 的 性 能 可 能 是 无 法 预测 的 : 期 望 推 迟 载 入 的 字段 可 能 很 早 就 加 
载 了 ， 保 存 到 数据 库 的 数据 可 能 是 元 余 的 ， 期 望 保持 在 JPA 缓存 中 的 数据 可 能 还 需要 从 数 
据 库 中 再 次 提取 ， 等 等 。 

为 IPA 特别 定制 的 字 节 码 处 理 方 法 并 不 存在 。 通 常情 况 下 ， 这 是 作为 编译 过 程 的 一 部 分 完 
成 的 一 一 实体 类 完成 编译 后 (在 它们 被 载 和 到 JAR 文件 、 或 者 由 JVM 开始 运行 之 前 )， 它 
们 被 传递 给 与 具体 实现 相关 的 后 处 理 器 (postprocessor)， 对 字 节 码 进行 “增强 ”*”， 最 终生 
成 一 个 替换 类 ， 这 个 类 按照 需要 进行 了 优化 。 

有 的 JPA 实现 还 提供 了 对 字 节 码 的 动态 优化 机 制 ， 可 以 在 类 装载 到 JVM 的 过 程 中 对 其 
进行 优化 。 这 种 方式 需要 在 JVM 内 部 运行 一 个 代理 ， 类 载 人 到 JVM 时 ， 代 理会 插入 到 
类 的 载 入 过 程 中 ， 在 他 们 被 用 于 定义 类 之 前 ， 对 这 些 字 节 码 进行 修改 。 我 们 可 以 在 应 用 
程序 的 命令 行 指定 使 用 代理 ， 例 如 对 于 EclipseLink， 你 可 以 添加 -javaagent:path_to/ 
eclipselink.jar 到 命令 行 参数 列表 中 。 


11.2.1 事务 处 理 

JPA 同时 适用 于 Java SE 和 Java EE 的 应 用 。 应 用 运行 的 平台 会 影响 JPA 事务 的 处 理 方式 。 
Java EE 中 ，JPA 事务 是 应 用 服务 器 的 Java 事务 API (Java Transaction API，JTA) 实现 的 
组 成 部 分 。 这 种 设计 提供 了 两 种 实现 事务 的 选择 : 可 以 由 应 用 服务 器 来 处 理 边 界 (使 用 容 
器 管理 事务 ， 即 Container Managed Transactions，CMT) ， 或 者 由 应 用 程序 通过 编程 显 式 地 
控制 事务 边界 (使 用 用 户 管理 事务 ， 妈 User-Managed Transaction，UMT) 。 

等 效 使 用 时 ，CMT 和 UMT 在 性 能 上 没有 显著 的 差异 。 然 而 ， 它 们 并 不 总 是 可 以 等 效 地 使 
用 的 。 尤 其 是 跟 CMT 对 比 起 来 ，UMT 的 范畴 变化 很 大 ， 而 这 些 对 性 能 的 影响 非常 显著 。 
我 们 以 下 面 的 伪 代 码 为 例 讲解 说 明 
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文 里 事务 作用 的 范 





这 上 
内 


@Stateless 

public class Calculator { 
@PersistenceContext(unitName="Calc") 
EntityManager em; 


@TransactionAttribute(REQUIRED) 

public void calculate() { 
Parameters p = em.find(...); 
A 进行 昂贵 的 计算 …… 


em.persist(...answer...); 




















[ey 





采用 UMT 方式 会 更 加 灵活 : 


切 分 事务 可 以 限制 事 


@Stateless 

public class Calculator { 
@PersistenceContext(unitName="Calc") 
EntityManager em; 


public void calculate() { 


UserTransaction ut = …… 在 应 用 服务 器 





ut.begin(); 

Parameters p = em.find(...); 
ut.commit(); 

a 进行 昂贵 的 计算 …… 
ut.begin(); 
em.persist(...answer...); 
ut.commit(); 


} 











bp 查 找 UT……; 


昌 (使 用 CMT 的 情况 ) 是 整个 方法 。 如 果 该 方法 要 求 对 持久 化 的 数据 
L 备 重复 读 语义 ， 表 中 的 数据 在 昂贵 的 计算 过 程 中 就 会 被 锁定 。 


务 对 应 用 程序 扩展 性 的 影响 ， 而 这 只 能 通过 UMT 方式 实现 。 严 格 来 


说 ,使 用 CMT 也 能 够 实现 类 似 功 能 ， 不 过 作业 需要 切 分 到 三 个 不 同 的 方法 中 ， 每 个 方法 


使 用 不 同 的 








事务 属性 。 总 体 而 言 ， 采 用 UMT 方式 要 方便 得 多 。 


类 似 地 ， 通 过 UMT 的 servlet 可 以 创建 跨 多 个 方法 调用 的 事务 访问 EJB。 要 想 使 用 CMT 


达成 同样 的 目的 ， 你 需要 向 EJB 的 接口 中 加 入 一 个 新 的 元 方法 (metamethod)， 
同一 事务 


在 Java SE 应 用 中 ， 实 体 管理 器 
务 对 象 的 边界 。 使 用 JPA 保存 股票 价格 到 数据 库 的 例子 包含 








hl 





中 的 其 他 方法 。 


public void run() { 











下 面 的 代码 : 





for (int i = startStock; i < numStocks; i++) { 
EntityManager em = emf.createEntityManager(); 
EntityTransaction txn = em.getTransaction(); 


txn.begin(); 
while (!curDate.after(endDate)) { 


StockPrice sp = createRandomStock(curDate); 


if (sp != null) { 


用 于 调用 


(entity manager) 负责 提供 事务 对 象 ， 而 应 用 负责 划分 事 
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em.persist(sp); 
for (int j = 0; j < 5; j++) { 
StockOptionpriceImpl sop = 
createRandomOption(sp.getSymbol, sp.getDate()); 
em.persist(sop); 
} 
} 
curDate.setTime(curDate.getTime() + msPerDay); 
} 
txn.commit(); 
em.close(); 


} 


与 JDBC 中 观察 到 的 事务 行为 类 似 ， 使 用 JPA 时 ， 在 事务 提交 的 频率 以 及 自然 事务 边界 的 
定义 上 也 存在 很 多 效率 上 的 取舍 。 这 个 例子 中 的 选择 事务 提交 时 机 的 考量 会 在 下 一 节 中 展 
开 讨 论 。 














XA 事务 


JPA 实体 会 频繁 参与 到 XA 事务 中 ; 这 里 解释 一 下 ，XA 事务 是 使 用 了 多 个 数据 库 资 
源 ， 或 者 同时 使 用 了 数据 库 及 其 他 事务 资源 ( 璧 如 JMS) 的 事务 。 


跨 多 个 不 同事 务 资 源 提 交 事 务 是 一 种 非常 昂 责 的 操作 一 一 为 了 提交 数据 ， 完 成 这 种 操 
作 的 算法 通常 都 要 实现 可 扩展 架构 (eXtended Architecture，XA) 标准 。 这 是 一 种 非常 
智能 和 复杂 的 操作 ， 它 要 求 在 事务 涉及 的 各 个 资源 之 间 有 多 次 的 交换 往返 。 


这 种 情况 下 ， 大 多 数 的 Java EE 应 用 服务 器 都 支持 一 种 优化 ， 借 此 最 后 的 资源 能 绕 过 
正常 的 XA 协议 。 这 种 优化 有 多 个 名 称 ， 璧 如 最 终 代 理 优化 (Last Agent Optimization， 
LAO)、 日 志 最 终 资 源 (Logging Last Resource，LLR) 优化 、 最 终 资源 提交 优化 (Last 
Resource Commit Optimization ，LRCO)、 最 终 资源 开局 (Last Resource Gambit) ， 或 者 
其 他 名 字 。 


从 技术 上 来 说 ， 这 些 优 化 并 不 完全 相同 。 尤 其 是 ， 如 果 最 终 的 代理 能 够 存储 XA 日 志 
的 JDBC 资源 ，LLR 和 LRCO 优化 就 能 提供 完全 的 ACID' 兼容 性 。 有 的 LAO 实现 能 
达到 这 一 标准 ， 有 的 目前 还 做 不 到 。 如 果 JPA 数据 库 能 用 于 存放 支持 LAO 的 应 用 服 
务 器 的 事务 日 志 ， 事 务 的 处 理 就 会 显著 加 速 ， 因 为 数据 库 的 更 新 不 再 需要 使 用 XA 协 
议 。 它 们 同时 也 是 ACID 兼容 的 。 

如 果 具 体 的 LAO 实现 并 未 像 上 述 那样 存放 事务 日 志 ， 它 仍然 具备 巨大 的 性 能 优势 一 一 
不 过 要 注意 的 是 ， 如 果 在 事务 进行 中 包括 了 这 样 的 资源 ,一 旦 发 生 崩 汪 ， 这些 前 演 是 
无 法 自动 恢复 的 。 这 时 ， 人 力 的 加 入 就 变 得 必 不 可 少 ， 管 理 员 需要 查看 挂 起 的 事务 以 
及 最 近 提 交 的 事务 ， 手 工地 回 滚 一 些 事务 以 重建 数据 的 一 致 性 。 














注 1: ACID 的 全 称 为 Atomicity Consistency Isolation Durability， 即 原子 性 、 一 致 性 、 隔 离 性 和 持久 性 ， 详 
译 者 广 




















见 http:Wwww.fredosaurus.com/notes-db/transactions/acid.html。 
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快速 小 结 

1. 采用 UMT 显 式 地 管理 事务 的 边界 通常 能 提升 应 用 程序 的 性 能 。 

2.， 默认 的 Java EE 编程 模型 一 一 Servlet 或 者 Web Service 通过 EJB 访问 JPA 
实体 一 一 很 容易 支持 这 种 模式 。 

3. 还 有 另 一 种 替代 方案 ， 即 可 以 按照 应 用 程序 的 事务 需要 ， 将 JPA 的 逻辑 
划分 到 不 同 的 方法 中 处 理 。 


11.2.2 ”对 JPA 的 写 性 能 进行 优化 
在 JDBC 中 ， 我 们 关注 两 类 关键 的 性 能 技巧 : 重用 预 处 理 语句 和 通过 批 处 理 进行 更 新 。 


使 用 JPA 有 可 能 同时 实现 这 两 方面 的 优化 ， 但 是 如 何 优化 取决 于 使 用 JPA 的 具体 实现 ， 
JPA 的 应 用 程序 接口 并 没有 提供 相应 的 调用 。 对 于 Java SE 而 言 ， 典 型 的 优化 方法 是 修改 
应 用 程序 的 persistence.xml 文件 ， 以 调整 某 个 属性 的 设置 。 

































































尽量 减少 写 入 的 字段 
优化 数据 库 的 写 操 作 性 能 的 一 个 比较 通用 的 方式 是 只 更 新 那些 已 经 变化 的 字段 。 比 如 ， 
在 一 个 人 力 资源 系统 中 ， 使 我 的 薪水 翻 倍 所 使 用 的 代码 会 访问 我 们 员工 记录 中 的 二 十 
个 字段 ， 但 是 只 有 一 个 字段 (这 点 非常 重要 ) 要 写 回 到 数据 库 。 
JPA 的 实现 应 该 透明 地 完成 这 种 优化 。JPA 需要 提供 一 种 机 制 来 记录 代码 中 的 哪些 值 
发 生 了 改变 ， 这 是 为 什么 JPA 字 节 码 必须 增强 的 原因 之 一 。JPA 字 节 码 适 当 增 强 后 ， 
用 于 记录 我 加 薪 记 录 的 SQL 语句 就 只 会 更 新 那个 变化 的 字段 。 











譬如 ， 使 用 JPA 的 EclipseLink 应 用 实现 时 ， 通 过 在 persistence.xml 文件 中 添加 下 面 的 属性 
可 以 开启 语句 重用 。 

<property name="eclipselink.jdbc.cache-statements" value="true" /> 
注意 ， 该 选项 是 在 EclipseLink 实现 的 范围 内 开启 语句 重用 的 。 如 果 JDBC 驱动 程序 能 够 提 
供 语 句 池 (statement pool) ， 通 常 建议 在 驱动 程序 级 别 开 启 语句 缓存 而 不 是 在 JPA 的 配置 
中 进行 这 样 的 设置 。 
添加 下 面 的 属性 可 以 在 引用 JPA 实现 中 开启 语句 批 处 理 (statement batching) : 


<property name="eclipselink.jdbc.batch-writing" value="JDBC" /> 
<property name="eclipselink.jdbc.batch-writing.size" value="10000" /> 


JDBC 驱动 程序 无 法 自动 实现 语句 批 处 理 ， 所 以 该 选项 在 所 有 的 场景 中 都 非常 有 帮助 。 
批 处 理 可 以 从 两 个 方面 进行 控制 : 首先 可 以 设置 size 属性 ， 就 如 上 面 的 例子 所 述 。 其 
次 ， 应 用 可 以 定期 地 调用 实体 管理 器 的 fLush() 方法 ， 调 用 该 方法 会 立即 触发 所 有 的 批 
处 理 语 句 执行 。 


表 11-2 展示 了 使 用 语句 重用 和 批 处 理 向 数据 库 创建 和 写 入 股票 实体 的 效果 。 
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表 11-2: 使 用 JPA 插 入 128 条 股票 记录 的 耗 时 对 比 
































编程 模式 消耗 时 间 ( 秒 ) 
不 使 用 批 处 理 和 语句 池 240 
不 使 用 批 处 理 ， 使 用 语句 池 200 
使 用 批 处 理 ， 不 使 用 语句 池 23.37 
同时 使 用 批 处 理 和 语句 池 21.08 











快速 小 结 

1. JPA 应 用 和 JDBC 应 用 一 样 ， 受 益 于 对 数据 库 写 操作 调用 的 次 数 限制 
(有 时 还 需要 权衡 是 否 持 有 事务 锁 ) 。 

2. 语句 缓存 可 以 在 JPA 层面 实现 ， 也 可 以 在 JDBC 层面 实现 。 不 过 ， 我 们 
应 该 首先 使 用 JDBC 层面 的 缓存 。 

3. 批量 的 JPA 更 新 可 以 通过 声明 (在 persistence.xml 文件 中 ) 实现 ， 也 可 
以 通过 编程 方式 (通过 调用 fLush( ) 方法 ) 实现 。 




















11.2.3 ”对 JPA 的 读 性 能 进行 优化 

优化 JPA 的 读 操作 ， 确 定 何 时 以 及 如 何 从 数据 库 中 读 取 数据 是 非常 复杂 的 ， 远 不 像 看 起 来 
那么 简单 。 原 因 在 于 为 了 满足 将 来 潜在 的 请 求 ，JPA 会 缓存 数据 。 对 提高 性 能 而 言 ， 这 通 
常 是 个 不 错 的 设计 ， 但 是 它 也 意味 着 由 JPA 生成 的 用 于 读 取 数据 的 SQL 语句 ， 从 数据 量 
的 角度 看 似乎 并 不 太 令 人 满意 。 数 据 检索 针对 JPA 缓存 的 情况 进行 优化 ， 而 非 针对 正在 进 
行 的 请 求 进行 优化 。 
关于 缓存 的 细节 ， 我 们 在 下 一 节 会 深入 讨论 。 现 在 先 看 看 对 JPA 进行 数据 库 查询 优化 
的 基本 方式 。JPA 在 三 种 情况 下 需要 从 数据 库 中 读 取 数据 ， 分 别 是 : EntityManager 的 
find() 方 法 被 调用 时 ， 一 个 JPA 查询 执行 时 ， 代 码 访 问 一 个 新 的 实体 ， 该 实体 会 使 用 
现 有 实体 的 一 些 关系 时 。 就 股票 类 而 言 ， 它 属于 最 后 一 种 情况 ， 它 在 股票 实体 上 调用 了 
getOptions() 方法 。 

调用 find() 方法 是 最 直观 的 情况 : 这 时 只 涉及 一 行 记录 ， 该 行 记 录 (至 少 一 行 ) 会 从 数据 
库 中 读 取 。 这 里 能 控制 的 是 有 多 少数 据 会 返回 。JPA 可 以 只 返回 该 行 中 的 某 些 字 段 ， 也 可 
以 返回 整 行 的 数据 ， 它 还 可 以 预 取 与 正在 处 理 的 行 相 关 的 其 他 实体 数据 。 这 些 优化 都 能 够 
应 用 到 查询 上 。 有 两 种 可 能 的 优化 途径 : 读 更 少 的 数据 (因为 这 些 数 据 都 不 需要 )， 或 者 
一 次 读 取 更 多 的 数据 (因为 这 些 数据 将 来 一 定 会 被 访问 )。 

1. 读 取 更 少 的 数据 

为 了 读 取 更 少 的 数据 ， 你 需要 指定 哪些 字段 要 延迟 载 入 。 查 询 实体 时 ， 被 声明 为 延迟 载 和 
的 字段 会 从 查询 载 入 数据 的 SQL 语句 中 移 除 。 如 果 该 字段 的 getter 方法 被 执行 ， 这 意味 着 
需要 再 次 查询 数据 库 才 能 取得 该 字段 的 数据 。 

我 们 很 少 在 基本 类 型 的 简单 列 上 使 用 该 声明 ， 不 过 如 果实 体 包 含 大 型 的 BLOB 或 者 CLOB 
对 象 ， 就 需要 考虑 是 否 使 用 这 种 声明 了 。 
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@Lob 

@Column(name ="IMAGEDATA") 
@Basic(fetch = FetchType.LAZY) 
private byte[] imageData; 


在 这 个 例子 中 ， 实 体 映射 到 了 一 个 存储 二 进 制 图 像 数据 的 表 中 。 二 进 制 数据 非常 大 ， 因 此 
例子 认为 这 部 分 数据 除非 有 真实 的 需要 ， 否 则 没有 必要 载 入 。 不 载 入 不 需要 的 数据 在 这 里 
带 来 了 两 个 好 处 : 查询 实体 时 ，SQL 的 运行 速度 更 快 了 ， 除 此 之 外 ， 它 还 市 省 了 大 量 内 
存 ， 直 接 减 轻 了 垃圾 回收 的 压力 。 


























提取 组 (Fetch Groups) 


如 果实 体 有 些 字段 被 定义 为 延迟 载 入 (lazy load) ， 通 常 它们 会 在 需要 访问 时 一 次 一 个 
地 被 载 入 。 

如 果实 体 中 有 多 个 字段 ( 璧 如 三 个 ) 都 被 定义 为 延迟 载 入 ， 如 果 一 个 字段 被 访问 ， 它 
们 有 可 能 都 被 访问 吗 ? 如 果 答 案 是 确定 的 ， 最 好 一 次 性 载 入 所 有 延迟 载 入 的 字段 。 
以 上 并 不 是 JPA 标准 的 一 部 分 ， 但 是 大 多 数 的 JPA 实现 都 允许 自行 定义 提取 组 来 完成 
这 样 的 任务 。 使 用 提取 组 ， 我 们 可 以 指定 哪些 延迟 载 入 的 字段 可 以 作为 一 个 群 组 ， 一 
旦 这 个 群 组 中 的 一 个 成 员 被 访问 ， 整 个 群 组 都 会 被 载 入 。 典 型 的 情况 下 ， 我 们 可 以 定 
义 多 个 相互 独立 的 字段 群 组 ， 每 个 群 组 都 可 以 在 需要 的 时 候 载 入 。 


由 于 不 是 JPA 的 标准 ， 所 以 使 用 提取 组 的 代码 都 依赖 于 特定 的 JPA 实现 。 但 是 如 果 有 
需要 ， 有 关 的 细节 请 查阅 你 使 用 的 JPA 实现 文档 。 














也 请 注意 ， 延 迟 的 声明 最 终 只 是 对 JPA 实现 的 建议 。JPA 实现 可 以 自由 决定 是 否 要 对 数据 
采用 主动 载 和 人， 或 者 延迟 载 和 。 

男 一 方面 ， 可 能 有 些 数 据 需 要 提前 载 和 一 一 璧 如， 获取 一 个 实体 时 ， 其 他 (相关 ) 的 实体 
也 应 该 返回 。 这 种 情况 被 称 为 预 取 (eager fetching)， 它 使 用 类 似 的 注释 : 


@OneToMany(mappedBy="stock", fetch=FetchType.EAGER) 
private Collection<StockOptionpriceImpl> optionsPrices; 


如 果实 体 之 间 的 关系 类 型 定义 是 oneTo0ne 或 者 ManyTo0ne， 默 认 情 况 下 这 些 相关 实体 就 
会 被 主动 载 入 (相反 的 优化 可 以 采取 类 似 的 方式 : 如 果实 体 几 乎 不 会 被 使 用 ， 可 以 将 它们 
标记 为 FetchType.LAZY)。 

对 JPA 实现 而 言 ， 这 也 只 是 一 种 建议 ， 但 它 本 质 上 想 要 表达 的 是 ， 任 何 时候 ， 我 们 在 提取 
入 票 价 格 实体 的 同时 ， 应 该 确保 所 有 相关 期 权 价格 也 同时 被 返回 。 有 一 点 需要 注意 : 通常 
我 们 认为 主动 方式 的 载 入 在 生成 的 SQL 中 会 使 用 JOIN。 但 是 典型 的 JPA 供应 商都 没有 使 
用 这 种 方式 : 它们 会 执行 一 条 SQL 查询 取得 主要 的 对 象 ， 紧 接着 再 执行 一 条 或 多 条 SQL 
命令 取得 其 他 相关 的 对 象 。 如 果 你 使 用 find() 方法 ， 这 里 就 没有 任何 限制 ， 如 果 需 要 使 用 
JOIN 语句 ， 你 可 以 自己 构造 查询 ， 并 在 程序 的 查询 中 调用 JOIN 查询 。 


2. 在 查询 中 使 用 JOIN 
JPQL 不 允许 你 指定 返回 对 象 的 哪些 字段 。 以 下 面 的 JPQL 查询 为 例 : 
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Query q = em.createQuery("SELECT s FROM StockPriceImpL s"); 
这 个 查询 产生 的 是 下 面 的 这 条 SQL 语句 : 

SELECT <enumerated list of non-LAZY fields> FROM StockPriceTable 
如 果 你 希望 在 生成 的 SQL 中 返回 更 少 的 字段 ， 没 有 其 他 的 办 法 ， 只 能 将 它们 标记 为 延迟 载 
入 类 型 。 同 样 地 ， 对 标记 为 lazy 的 字段 ， 没 有 其 他 选项 可 以 在 查询 中 返回 它们 的 内 容 。 
如 果实 体 间 有 关系 ， 这 些 实体 可 以 在 JPQL 中 使 用 显 式 的 联合 查询 ， 一 次 性 地 返回 初始 实 
体 以 及 与 它 相关 的 其 他 实体 。 以 前 文 的 股票 实体 为 例 ， 我 们 可 以 构造 下 面 的 查询 : 


Query q = em.createQuery("SELECT s FROM StockOptionImpl s "+ 
"JOIN FETCH s.optionsPrices'" ); 


这 条 JPQL 会 生成 类 似 下 面 的 SQL 语句 : 


SELECT t1.<fields>, t0.<fields> FROM StockOptionprice tO, Stockprice t1 
WHERE 〈((t0.SYMBOL = t1.SYMBOL) AND (tO.PRICEDATE = t1.PRICEDATE)) 












































联合 查询 (JOIN FETCH) 的 其 他 机 制 


很 多 JPA 的 提供 商 允 许 通 过 在 查询 上 设置 查询 提示 (Query Hint) 指定 进行 联合 查询 。 
璧 如 ， 在 EclipseLink 中 ， 下面 的 代码 会 生成 JOIN 查询 : 


Query q = em.createQuery("SELECT s FROM StockOptionImpl s"); 
q.setQueryHint("eclipselink.join-fetch", "s.optionsPprices"); 


有 的 JPA 提供 商 还 提供 了 特殊 的 @JoinFetch 注释 ， 可 用 于 这 种 关系 的 定义 。 























不 同 的 JPA 供应 商 生成 的 具体 SQL 语句 可 能 略 有 不 同 (本 例 使 用 的 是 EclipseLink) ， 但 是 
通用 的 流程 都 大 同 小 异 。 

对 实体 关系 (Entity Relationship) 而 言 ， 无 论 它们 被 广 解 为 主动 载 和 还 是 延迟 载 入 ， 都 可 以 使 
用 联合 查询 。 如 果 join 应 用 于 延迟 载 和 人 关系 的 实体 ， 且 注释 为 延迟 载 和 的 实体 满足 查询 条 件 ， 
这 部 分 实体 也 会 从 数据 库 中 返回 ， 且 这 部 分 实体 在 将 来 使 用 时 ， 不 需要 再 次 访问 数据 库 。 
联合 查询 返回 的 所 有 数据 都 被 使 用 时 ， 其 带 来 的 性 能 提升 效果 最 显著 。 然 而 ， 联 合 查询 还 
会 以 一 些 难 以 预期 的 方式 和 JPA 缓存 进行 交互 。 这 种 情况 在 介绍 缓存 的 一 市 将 会 举例 曾 
述 ; 正式 使 用 联合 查询 编写 自 定义 的 查询 之 前 ， 请 确保 你 已 经 完全 理解 各 种 可 能 的 后 果 。 
3. 批 处 理 和 查询 
JPA 查询 的 处 理 和 JDBC 查询 一 样 ， 都 会 产生 结果 集 : JPA 的 实现 提供 了 多 种 选择 ， 可 以 
一 次 取得 所 有 的 数据 ， 或 者 随 着 应 用 程序 遍历 整个 查询 结果 ， 每 次 取得 一 条 记录 ， 或 者 每 
次 读 取 若 干 个 结果 (类似 于 JDBC 提取 大 小 那样 工作 )。 


标准 并 未 规定 这 些 情况 如 何 处 理 ， 但 是 JPA 的 提供 商 们 大 都 有 自己 的 专 有 机 制 设置 提取 大 
小 。 壁 如 ，EclipseLink 中 对 查询 设置 了 hint 来 指定 提取 大 小 ， 如 下 所 示 : 


q.setHint("eclipselink.JDBC_FETCH_SIZE", "100000"); 
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与 此 相反 ，Hibernate 则 提供 了 自 定 义 的 @Batchsize 声明 来 设 定 提 取 大 小 。 


如 果 有 超大 量 的 数据 正在 处 理 ， 代 码 可 能 需要 对 返回 的 列表 进行 分 页 处 理 。 这 与 数据 如 何 
在 网 页 上 呈现 给 用 户 有 天 然 的 联系 : 刚 开 始 时 ， 数 据 的 一 个 子 集 呈 现在 页 面 上 (譬如 100 
行 记录 )， 随 着 点 击 “ 向 后 “向 前 ”的 页 面 链接 ， 我 们 就 能 通过 页 面 浏 览 所 有 的 数据 ， 
这 些 都 是 通过 对 查询 设置 返回 区 间 实 现 的 。 

Query q = em.createNamedQuery("SseLectALL'" ) ; 

query.setFirstResult(101); 


query.setMaxResults(100); 
List<? implements StockPrice> = q.getResultList(); 


这 个 查询 返回 的 是 用 于 呈现 在 Web 应 用 第 二 页 的 列表 数据 101 号 到 200 号 条 目 。 相 对 于 
提取 200 行 数据 ， 之 后 再 丢弃 前 100 行 而 言 ， 只 提取 这 个 区 间 的 数据 更 加 高 效 。 

注意 ， 这 个 例子 使 用 了 命名 查询 (通过 createNamedQuery() 方法 )， 没 有 使 用 即时 查询 
( 即 createQuery() 方法 )。 在 很 多 JPA 实现 中 ， 命 名 查询 的 运行 速度 都 更 快 : JPA 的 实现 
几乎 都 结合 语句 缓存 池 使 用 了 带 绑 定 参数 的 预 处 理 语句 。 没 有 任何 规定 禁止 JPA 实现 使 用 
类 似 于 匿名 或 即时 查询 应 用 的 逻辑 ， 只 不 过 这 种 情况 实现 的 难度 会 更 大 ， 而 JPA 的 实现 可 
能 仅仅 是 每 次 创建 一 个 新 的 语句 ( 即 一 个 Statenent 对 象 )。 


快速 小 结 

1. JPA 会 进行 多 种 优化 ， 以 限制 (或 增加 ) 一 次 读 取 操 作 所 返回 的 数据 量 。 

2.， JPA 实体 中 ， 如 果 一 个 大 型 字段 (譬如 BLOB 类 型 的 字段 ) 很 少 被 使 用 ， 
就 应 该 延迟 载 入 。 

3. JPA 实体 之 间 存 在 关系 时 ， 相 关 的 数据 可 以 主动 裁 入 或 者 延迟 载 人 ， 具 
体 的 选择 取决 于 应 用 程序 的 需要 。 

4. 采用 主动 载 和 关系 时 ， 可 以 使 用 命名 查询 生成 一 个 使 用 JOIN 的 SQL 语 
句 。 应 注意 的 是 ， 这 会 影响 JPA 缓存 ， 因 此 并 不 总 是 最 好 的 主意 (下 一 
节 会 讨论 它 的 影响 )。 

5. 使 用 命名 查询 读 取 数据 比 普 通 的 查询 要 快 很 多 ， 因 为 JPA 实现 为 命名 查 
询 构 造 PreparedStatement 更 容易 。 















































11.2.4 ” JPA 缓存 


Java 与 性 能 相关 的 最 经 典 的 用 例 之 一 是 它 提供 了 一 种 机 制 可 以 充当 中 间 层 ， 缓 存 后 端 数据 
库 返 回 的 数据 。 从 架构 的 角度 看 ，Java 层 完 成 了 几 个 重要 的 功能 ( 壁 如 ， 避 免 客 户 端 直接 
访问 数据 库 )。 从 性 能 的 角度 出 发 ， 在 Java 层 缓存 频繁 使 用 的 数据 能 极 大 地 加 速 客户 端的 
响应 时 间 ， 从 而 改善 用 户 体验 。 


JPA 从 设计 之 初 就 秉持 了 这 样 的 架构 设计 。 在 JPA 中 包含 了 两 类 缓存 。 每 个 实体 管理 器 实 
例 都 有 自己 的 缓存 ， 它 会 在 本 地 缓存 事务 中 取得 的 数据 。 与 此 同时 ， 它 还 会 在 本 地 缓存 事 
务 中 写 入 的 数据 ， 只 有 在 事务 提交 时 ， 这 些 缓存 的 数据 才 会 发 送 给 数据 库 。 一 个 程序 可 能 
包含 多 个 不 同 的 实体 管理 器 实例 ， 每 个 管理 器 执行 着 不 同 的 事务 ， 每 个 也 都 有 自己 的 本 地 
缓存 (尤其 是 ， 插 入 到 Java EE 应 用 中 的 实体 管理 器 都 是 相互 独立 的 实例 )。 


























数据 库 性 能 的 最 佳 实践 | 271 








实体 管理 器 提交 事务 时 ， 本 地 缓存 中 的 所 有 数据 会 合并 到 全 局 缓存 中 。 全 局 缓存 对 应 用 程 
序 的 所 有 实体 管理 器 而 言 是 共享 的 。 全 局 缓存 也 被 称 为 二 级 缓存 (L2 Cache) 或 者 是 二 层 
缓存 (Second-Level Cache) ， 而 实体 管理 器 中 的 缓存 被 称 为 一 级 缓存 (LI Cache) 或 者 是 
一 层 缓 存 (First-Level Cache ) 。 


实体 管理 器 的 事务 缓存 基本 上 不 需要 进行 调 优 ， 且 在 所 有 的 JPA 实现 中 ，L1 缓存 默认 都 
是 开启 的 。L2 缓存 则 稍 有 不 同 : 大 多 数 JPA 实现 只 提供 了 一 个 缓存 ， 而 不 是 默认 开启 所 
有 的 缓存 〈 艾 如 ，Hibernate 默认 并 未 开启 所 有 的 缓存 ， 不 过 EclipseLink 默认 就 启动 了 所 
有 的 缓存 )。 一 旦 开启 L2 缓存 ， 它 的 调 优 和 使 用 就 会 极 大 地 影响 应 用 的 性 能 。 


JPA 缓存 只 在 通过 它们 的 主键 访问 实体 时 有 效 ， 即 通过 调用 find() 方法 返回 对 象 ， 或 者 通 
过 访问 相关 实体 (或 者 主动 载 入 ) 得 到 对 象 。 实 体 管理 器 尝试 通过 它 的 主键 或 者 关系 映射 
查找 对 象 时 ， 首 先 会 在 L2 缓存 中 查找 ， 如 果 找 到 满足 条 件 的 对 象 就 直接 返回 ， 从 而 市 省 
了 访问 数据 库 的 开销 。 

一 般 通过 查询 返回 的 对 象 不 会 在 L2 缓存 中 保存 。 有 些 JPA 实现 会 提供 自己 独特 的 机 制 对 
查询 的 结果 进行 缓存 ， 但 是 这 些 结果 只 有 在 几乎 完全 相同 的 查询 再 次 执行 时 才能 重用 。 即 
使 JPA 的 实现 支持 查询 缓 在， 实体 自 身 也 不 会 保存 在 L2 缓存 中 ， 因 此 无 法 在 之 后 调用 
find() 方法 时 返回 。 


L2 缓存 、 查 询 以 及 对 象 的 载 和 之 间 关 系 紧 密 ， 多 种 方式 都 会 影响 应 用 程序 的 性 能 。 为 了 说 
明 这 些 关 系 ， 我 们 使 用 下 面 的 循环 代码 进行 例证 : 


EntityManager em = emf.createEntityManager(); 
Query q = em.createNamedQuery(queryName ) ; 
List<StockPrice> 人 = q.getResuLtList(); © 
for (StockPrice sp : 1){ 
ey 处 理 sp ……: 
if (processOptions) { 
Collection<? extends StockOptionprice> options = sp.getOptions(); @ 
for (StockOptionPrice sop : options) { 
a 处 理 sop ……: 



















































































} 
} 


em.close(); 


@ SQL Call Site 1 
@ SQL Call Site 2 


由 于 1L2 缓存 的 存在 ， 循 环 的 第 一 次 执行 与 之 后 的 执行 〈 通 常会 更 快 ) 的 路 径 是 不 一 样 的 。 
具体 性 能 上 的 差异 取决 于 查询 的 细节 以 及 实体 关系 。 接 下 来 的 几 个 子 节 会 详细 探讨 这 些 结 
果 的 差异 。 

这 个 例子 中 的 差异 主要 源 于 JPA 配置 的 不 同 ， 但 也 包括 一 些 济 试 的 运行 并 未 遍历 Stock 和 
StockOptions 类 之 间 的 关系 。 这 些 没有 遍历 关系 的 测试 中 ，processoptions 在 循环 中 的 值 
为 false， 因 此 实际 在 使 用 的 只 有 StockPrice 对 象 。 
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1. 默认 缓存 (延迟 载 入 ) 
示例 代码 中 ， 股 票 价格 通过 命名 查询 载 入 。 默 认 情 况 下 都 会 使 用 这 种 简单 的 查询 载 和 股票 
数据 : 
@NamedQuery(name="findAll", 
query="SELECT s FROM StockPriceImpL s ORDER BY s.id.symbol") 





StockPrice 类 与 StockOptionPrice 之 间 通 过 optionPrices 实例 变量 有 @OneToMany 的 关系 : 


@OneToMany (mappedBy="stock") 
private Collection<StockOptionprice> optionsPrices; 


@OneToMany 关系 默认 采用 延迟 载 入 机 制 。 表 11-3 展示 了 执行 这 个 循环 所 消耗 的 时 间 。 
表 11-3: 读 取 128 支 股票 数据 消耗 的 时 间 (默认 配置 ) 























测试 用 例 首次 执行 后 续 执 行 
延迟 载 入 61.9 秒 (33 409 次 SQL 调用 ) 3.2 秒 (1 次 SQL 调用 ) 
延迟 载 入 ， 不 遍历 5.6 秒 (1 次 SQL 调用 ) 2.8 秒 (1 次 SQL 调用 ) 





示例 循环 首次 运行 i ( 读 取 128 支 股票 一 年 的 数据 ) 时 ，JPA 代码 会 调用 
executeQuery() 方法 执行 一 条 SQL 语句 。 该 语句 会 执行 代码 列表 中 第 一 部 分 的 SQL 调用 
(SQL Call Site 1) 。 


随 着 代码 遍历 该 股票 ， 读 取 期 权 价格 的 集合 ，JPA 会 执行 SQL 语句 提取 与 特定 实体 相关 的 
所 有 期 权 信息 〈 即 该 语句 会 一 次 性 地 返回 某 支 股票 / 日 期 的 整个 集合 )。 这 就 是 第 二 部 分 的 
SQL 语句 ， 执 行 过 程 中 它 会 生成 33 408 个 单独 SELECT 语句 (261 天 x 128 支 股票 ) 。 


首次 执行 循环 时 ， 这 个 例子 耗 时 62 秒 钟 。 第 二 次 执行 时 ， 只 花费 了 3.2 秒 。 这 是 因为 第 二 
仅 执行 了 命名 查询 。 通 过 关系 提取 的 实体 还 保持 在 L2 缓存 内 ， 所 以 这 种 

清 况 无 需 访 问 数据 库 。( 前 面 提 过 ，L2 缓存 只 作用 于 通过 关系 加 载 或 者 find() 操作 的 实 
体 。 所 以 我 们 才能 在 L2 缓存 中 找 有 & 价 就 不 行 一 一 因为 股价 是 由 查 
询 载 和 的， 在 L2 缓存 内 不 存在 ， 所 以 必须 重新 载 和 人 。) 


表 11-3 的 第 二 行 代表 的 是 不 依次 遍历 访问 每 个 期 权 的 情况 〈 璧 如，processoptions 变量 值 
为 false)。 这 种 情况 下 ， 代 码 的 运行 速度 会 大 大 提升 完成 循环 的 第 一 次 迭代 仅 耗 时 5.6 
秒 ， 紧 接着 的 迄 代 耗 时 2.8 秒 。( 这 两 个 例子 的 性 能 差异 源 于 编译 器 的 预 热 。 虽 然 我们 很 难 
察觉 到 ， 但 这 个 预 热 在 第 一 个 例子 中 也 存在 。) 


2. 缓存 和 主动 载 入 〈Eager Loading) 

接 下 来 的 两 个 实验 中 ， 为 了 主动 载 入 期 权 价格 ， 股 票 价格 与 期 权 价格 之 间 的 关系 进行 了 重 
新 定义 。 

所 有 数据 都 被 使 用 时 (譬如 表 11-3 和 表 11-4 中 第 一 行 的 情况 ， 主 动 载 入 与 延迟 载 和 的 效 
果 几 乎 是 一 样 的 。 但 是 如 果 载 和 人 的 相关 数据 实际 并 未 使 用 〈 如 每 张 表 中 第 二 行 的 情况 )， 
采用 延迟 载 和 人 相关 数据 的 方式 能 够 节省 一 些 时 间 一 一 尤其 循环 第 一 次 执行 时 。 若 在 紧 接着 
的 执行 中 采用 这 各 方式， 循环 就 无 法 再 节省 时 间 了 ， 因 为 主动 载 入 的 代码 在 之 后 的 执行 过 
程 中 不 会 重新 载 入 ， 而 是 直接 从 L2 缓存 中 读 取 。 
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表 11-4: 读 取 128 支 股票 所 消耗 的 时 间 (采用 主动 载 入 ) 














测试 用 例 首次 执行 后 续 执 行 
主动 载 和 60.2 秒 (33 409 次 SQL 调用 ) 3.1 秒 (1 次 SQL 调用 ) 
主动 载 和 信 ， 不 遍历 ”60.2 秒 (33 409 次 SQL 调用 ) 2.8 秒 (1 次 SQL 调用 ) 

















主动 载 入 相关 数据 
无 论 相 关 数 据 是 通过 延迟 方式 载 入 还 是 通过 主动 方式 载 入 ， 这 个 循环 都 会 执行 33 408 
个 SELECT 语 向 以 取得 相应 的 股票 期 权 (正如 上 一 节 所 提 到 的 ， 默认 不 会 使 用 JOIN) 。 
这 种 情况 下 ,主动 载 入 和 延迟 载 入 的 区 别 是 什么 时 候 这 些 SQL 语句 会 执行 。 如 果 指 定 
的 关系 是 主动 载 入 ， 查 询 运 行 时 结果 集 立 即 会 被 处 理 (在 getResultList() 方法 调用 
内 进行 )。JPA 框架 会 查看 该 调用 返回 的 每 个 实体 ， 执 行 相关 的 SQL 语句， 提取 关联 
实体 。 所 有 这 些 SQL 语句 的 执行 都 发 生 在 SQL 调用 区 1 (SQL Call Site 1) 一 一 采用 


人 二 


主动 载 入 时 ,没有 任何 SQL 语句 会 在 SQL 调用 区 2 (SQL Call Site 2) 内 运行 。 

如 果 指 定 的 关系 是 延迟 载 入 ， 在 SQL 调用 区 1 内 (使 用 命名 查询 ) 只 有 股票 价格 会 载 
入 。 股 票 的 期 权 价 格 会 在 SQL 调用 区 2 进行 关系 遍历 时 载 入 。 这 个 循环 会 运行 33 408 
次 ， 因 此 会 触发 33 408 次 SQL 调用 。 

无 论 SQL 在 什么 时 候 执行 ，SQL 语句 的 总 数 是 固定 的 一 一 我 们 假定 延迟 载 入 的 例子 中 
所 有 的 数据 都 会 被 使 用 。 











3. 联合 查询 和 缓存 
正如 前 一 节 中 所 讨论 到 的 ， 我 们 可 以 显 式 地 使 用 JOIN 语句 编写 查询 : 


@NamedQuery(name="findAll", 
query="SELECT s FROM StockPriceEagerLazyImpl s "+ 
"JOIN FETCH s.optionsPrices ORDER BY s.id.symbol") 


使 用 命名 查询 〈 结 合 全 遍历 ) 的 数据 如 表 11-5 所 示 : 
表 11-5: 读 取 128 支 股票 的 耗 时 〈 使 用 联合 查询 ) 


























测试 用 例 首次 执行 后 续 执 行 

默认 配置 61.9 秒 (33 409 次 SQL 调用 ) 3.2 秒 (1 次 SQL 调用 ) 
联合 查询 17.9 秒 (1 次 SQL 调用 ) 11.4 秒 (1 次 SQL 调用 ) 
带 查 询 缓 存 的 联合 查询 “17.9 秒 (1 次 SQL 调用 ) 1.1 秒 (0 次 SQL 调用 ) 





首 个 循环 中 使 用 联合 查询 得 到 了 极 大 的 性 能 提升 : 完成 本 次 循环 仅 耗 时 17.9 秒 。 这 是 执行 
一 个 SQL 请 求 的 结果 ， 而 不 是 33 409 次 SQL 查询 的 结果 。 

不 幸 的 是 ， 下 一 次 代码 执行 还 需要 再 次 运行 那 条 同样 的 SQL 语句 ， 因 为 查询 的 结果 没 在 
L2 缓存 内 保存 。 这 个 例子 接 下 来 的 执行 耗 时 11.4 秒 这 是 由 于 执行 的 SQL 语句 包含 
JOIN 语句 ， 返 回 的 数据 超过 200 000 行 记 录 。 

如 果 JPA 的 提供 商 支 持 查询 缓存 ， 这 个 场景 下 使 用 该 机 制 无 疑 能 极 大 地 改善 程序 的 性 能 。 
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如 果 代 码 第 二 次 执行 时 不 需要 再 次 运行 SQL 语句 ， 接 下 来 的 执行 耗 时 就 只 需 1.1 秒 。 注 
意 ， 查 询 缓存 只 有 在 每 次 查询 运行 时 使 用 的 参数 都 完全 相同 时 才 工 作 。 

4. 避免 查询 

如 有 果实 体 不 需要 通过 查询 取得 ， 那 么 经 过 初始 的 预 热 阶段 后 ， 所 有 的 实体 都 可 以 通过 工 2 
缓存 访问 。L2 缓存 可 以 通过 载 入 所 有 的 实体 预 热 ， 所 以 我 们 在 之 前 例子 代码 的 基础 上 稍 加 
修改 得 到 了 下 面 的 代码 : 


EntityManager em = emf.createEntityManager(); 





























ArrayList<String> allSymbols = …… 所 有 有 效 的 股票 ……; 
ArrayList<Date> allDates = …… 所 有 有 效 的 日 期 …… : 


for (String symbol : allSymbols) { 
for (Date date = allDates) { 
StockPrice sp = 
em.find(StockPriceImpl.class, new StockPpricepK(symbol, date); 
a 处 理 sp ……: 
if (processOptions) { 
Collection<? extends StockOptionprice> options = sp.getOptions(); 


sd 处 理 选 项 pa i 





这 上段 代码 的 运行 结果 如 表 11-6 所 示 。 

表 11-6: 读 取 128 支 股票 数据 的 耗 时 (使 用 L2 缓 存 ) 
测试 用 例 首次 执行 后 续 执行 
默认 配置 61.9 秒 (33 409 次 SQL 调用 ) 3.2 秒 (1 次 SQL 调用 ) 
不 作 查询 100.5 秒 (66 816 次 SQL 调用 ) 1.19 秒 (0 次 SQL 调用 ) 




















首次 执行 这 个 循环 需要 66 816 个 SQL 语句: find() 方法 要 执行 33 408 次 SQL 调用 ， 
getOptions() 方法 又 执行 了 33 408 次 SQL 调用 。 所 以 ， 优 化 之 后 这 段 代码 的 速度 提升 了 
很 多 ， 因 为 现在 所 有 的 实体 都 保持 在 L2 缓存 内 ， 不 再 需要 执行 任何 的 SQL 语句 了 。 








测试 预 热 
Java 性 能 测试 一 一 尤其 是 基准 测试 ， 通 常 者 有 个 预 热 阶段 。 正 如 我 们 在 第 四 章 中 讨论 
的 ， 预 执 能 帮助 编译 器 编译 出 优化 的 代码 。 


这 是 另 一 个 证 明 预 热 阶段 极其 有 益 的 例子 。JPA 应 用 的 预 热 阶段 中 ， 最 常 使 用 的 实体 
会 被 载 入 到 LL2 缓存 中 。 通 过 对 不 同 测试 期 间 的 度量 ， 我 们 看 到 随 着 实体 第 一 次 载 入 ， 
应 用 的 性 能 发 生 了 显著 的 变化 。 这 一 点 在 上 一 个 例子 中 尤其 突出 ， 因 为 优化 后 不 再 需 
要 使 用 查询 载 入 实体 了 。 














前 面 提 过 ， 样 本 数据 库 中 包含 每 个 日 期 及 股票 组 合 对 应 的 五 个 期 权 价格 ， 或 者 128 支 股票 
超过 一 年 的 数据 ， 总 计 167 040 笔 期 权 的 价格 。 通 过 关联 访问 某 支 股票 在 某 个 日 期 的 五 个 
股票 期 权 ， 这 些 数 据 会 一 次 性 地 返回 。 这 就 是 为 什么 载 信 所 有 的 期 权 价格 需要 执行 33 408 
条 SQL 语句 。 虽 然 运行 的 SQL 语句 会 返回 多 行 数据 ，JPA 自身 仍 能 缓存 这 些 返 回 的 实 
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体 一 一 这 和 单 执行 一 条 查询 的 情况 略 有 不 同 。 如 果 L2 缓存 是 通过 遍历 实体 的 方式 构建 的 ， 
就 不 要 用 循环 的 方式 访问 相关 实体 一 一 通过 关联 可 以 非常 容易 地 访问 相关 的 实体 。 

随 着 代码 优化 ， 你 必须 考虑 缓存 的 影响 (尤其 是 L2 缓存 的 影响 )。 即 使 你 认为 自己 编写 的 
SQL 比 JPA 自动 生成 的 更 优 (因此 会 使 用 更 复杂 的 命名 查询 )， 也 应 权衡 缓存 发 挥 作用 时 ， 
这 样 的 代码 是 否 还 有 意义 。 虽 然 使 用 简单 的 命名 查询 能 快速 地 载 和 数据， 也 应 考虑 ， 如 果 
这 些 实体 是 通过 调用 find() 方法 载 和 L2 缓存 ， 长 期 来 看 会 造成 什么 影响 。 

5. 调整 JPA 缓 存 的 大 小 

正如 所 有 利用 对 象 重 用 的 机 制 ，JPA 缓存 也 有 同样 的 问题 ， 它 可 能 会 对 性 能 产生 潜在 的 冲 
击 : 如 果 缓 存 消 耗 了 过 多 内 存 ， 垃 圾 回收 就 会 面临 巨大 的 压力 。 出 现 这 种 情况 ， 你 往往 需 
要 调整 缓存 大 小 ， 或 者 控制 哪些 实体 可 以 继续 保持 在 缓存 内 。 不 幸 的 是 ， 这 方面 并 没有 标 
准 选项 ， 因 此 你 必须 依据 使 用 的 JPA 提供 商 ， 针 对 性 地 进行 调 优 。 

通常 JPA 实现 都 提供 了 选项 来 对 缓存 大 小 进行 设置 ， 要 么 是 全 局 的 设置 ， 要 么 是 针对 每 个 
实体 的 设置 。 显 然 ， 后 者 的 适应 性 更 广 、 更 灵活 ， 不 过 它 也 要 求 为 确定 每 个 实体 的 最 优 大 
小 做 更 多 的 工作 。 一 个 替代 方案 是 使 用 软 引 用 或 者 弱 引 用 ， 作 为 JPA 实现 的 12 缓存 。 璧 
如 ， 对 EclipseLink 而 言 ， 依 据 不 同 的 弱 引 用 或 者 软 引 用 组 合 提供 五 种 不 同 的 缓存 类 型 ( 包 
括 额 外 不 推荐 使 用 的 类 型 )。 虽 然 这 种 方式 与 为 每 个 实体 都 定义 最 优 大 小 比 起 来 相对 更 容 
易 一 些 ， 不 过 它 也 需要 做 一 些 计划 : 尤其 是 ， 我 们 在 第 7 章 中 介绍 过 ， 弱 引用 在 所 有 垃圾 
回收 中 都 会 被 清理 ， 因 此 不 适合 用 作 缓 存 的 对 象 。 


如 果 缓 存 是 基于 软 引 用 或 者 弱 引 用 的 ， 则 应 用 的 性 能 也 受制 于 堆 的 使 用 情况 。 本 节 所 有 的 
例子 使 用 的 堆 都 比较 大 ， 因 此 即使 缓存 应 用 中 的 200 448 个 实体 对 象 ， 也 不 会 给 垃圾 收集 
带 来 任何 问题 。 为 了 更 优 的 性 能 ， 如 果 JPA L2 缓存 很 大 ， 则 对 堆 进行 调 优 是 非常 重要 的 。 


快速 小 结 

1. JPA 的 12 缓存 会 自动 对 应 用 的 实体 进行 缓存 。 

2. L2 缓存 不 会 对 查询 返回 的 实体 进行 缓存 。 长 期 来 看 ， 这 种 方式 有 利于 避 
免 查 询 。 

3. 除非 使 用 的 JPA 实现 支持 查询 缓存 ， 否 则 使 用 JOIN 查询 的 效果 通常 会 对 
程序 的 性 能 造成 负面 的 效果 ， 因 为 这 种 操作 没有 充分 利用 L2 缓存 。 










































































11.2.5 ” JPA 的 只 读 实 体 


JPA 规范 并 未 直接 定义 只 读 实体 ， 但 是 很 多 JPA 供应 商 提 供 了 该 功能 。 通 常情 况 下 ， 只 读 
实体 比 (默认 的 ) 读 写 实体 性 能 更 好 ， 因 为 JPA 实现 很 明确 地 知道 它 不 需要 跟踪 实体 状 
态 ， 不 必 在 事务 中 注册 实体 ， 也 不 必 对 实体 上 锁 ， 等 等 。Java EE 的 容器 通常 都 支持 只 读 
实体 ， 无 论 使 用 的 是 哪 种 JPA 实现 。 这 种 情况 下 ， 应 用 服务 器 需要 确保 实体 的 访问 使 用 非 
事务 型 (Non-Transactional) JDBC 连接 。 一 般 情 况 下 ， 这 种 方式 能 带 来 显著 的 性 能 提升 。 
JPA 规范 中 定义 了 如 何在 Java EE 容器 中 支持 只 读 实体 的 事务 : 可 以 在 事务 之 外 运行 一 个 
通过 @TransactionAttributeType.SUPPORTS 注释 的 业务 方法 (假定 该 方法 调用 的 同时 没有 
事务 在 运行 )。 

















276 第 11 章 





在 这 种 情况 下 ， 该 方法 访问 的 实体 必须 是 只 读 的 ， 因 为 它们 不 是 事务 的 一 部 分 。 然 而 ， 如 





果 方 法 是 从 该 事务 的 某 个 方法 中 调用 的 ， 实 体 就 会 成 为 事务 的 一 部 分 。 


11.3 


小 结 


合理 调 优 访问 数据 库 的 JDBC 和 JPA 是 影响 中 间 层 应 用 性 能 最 重要 的 因素 之 一 。 请 牢记 下 
面 的 最 佳 实践 。 


通过 合理 配置 JDBC 或 者 JPA， 尽 可 能 地 实现 批量 读 取 和 写 入 。 


优化 应 用 使 月 











的 SQL 语句 。 对 于 JDBC 应 用 ， 这 者 


JPA 应 用 ， 你 还 需要 考虑 L2 缓存 的 影响 。 
尽量 减少 锁 的 使 用 。 如 果 数 据 不 大 容易 发 生 冲 突 ， 推 荐 使 用 乐观 锁 (Optimistic 


Locking) ; 如 果 数 据 经 常 发 生 六 





bp 是 一 些 基 本 、 标 准 的 SQL 命令 。 对 





h 突 ， 推 荐 使 用 悲观 锁 (Pessimistic Locking ) 。 


请 务必 使 用 预 处 理 语句 地 (Prepared Statement Pool) 。 
请 务必 合理 设置 连接 池 的 大 小 。 




















合理 地 设置 事务 的 范围 









































全 : 由 于 锁 在 整个 事务 期 间 都 需要 保持 ， 所 以 在 不 影响 应 用 程序 扩 
展 性 的 前 提 下 ， 尽 可 能 把 事务 的 范围 设置 得 大 一 些 。 








数据 库 性 能 的 最 佳 实践 | 277 


第 12 章 


Java SE AP| 技 巧 





在 某 些 Java SE API 的 实现 中 ， 存 在 一 些 会 影响 性 能 的 怪异 行为 ， 本 章 将 对 其 进行 探讨 。 
JDK 中 有 很 多 这 样 的 实现 细节 ， 我 经 常会 发 现 由 其 导致 的 性 能 问题 《即便 在 我 自己 的 代码 
中 ， 也 会 存在 )。 


12.1 缓冲 式 I/O 


在 我 于 2000 年 加 入 Java 性 能 团队 (Java Performance Group) 时 ， 我 的 老板 刚 出 版 了 一 本 
探讨 Java 性 能 的 书 ， 这 是 该 领域 有 史 以 来 的 第 一 本 书 。 缓 冲 式 IO 是 当时 最 热 的 话题 之 
一 。14 年 过 去 了， 我 原 以 为 这 是 老生 常 谈 的 话题 ， 准 备 将 其 去 挥 。 然 而 就 在 我 着 手 编写 本 
书 大 纲 的 那 周 ， 在 两 个 之 无 关联 的 项 目 中 ， 我 发 现 了 一 个 问题 ， 非 缓冲 式 IO 对 性 能 影响 
很 大 。 又 是 几 个 月 之 后 ， 在 为 本 书 准 备 例子 时 ， 我 抓 耳 挠 腮 地 想 ， 为 什么 我 的 “优化 ”会 
如 此 之 慢 呢 ? 然后 我 意识 到 : 真 春 ， 忘 记 正 确 地 缓冲 WO 了 。 


下 面 就 来 谈 一 下 缓冲 式 IO 的 性 能 。Inputstream.read() 和 0utputStream.write() 方法 操 
作 的 是 一 个 字符 。 由 于 所 访问 资源 不 同 ， 这 些 方法 有 可 能 非常 慢 。 而 在 fileInputStream 
上 调用 read() 方法 ， 更 是 慢 得 难以 形容 : 每 次 调用 该 方法 ， 都 要 进入 内 核 ， 去 取 一 个 字 市 
的 数据 。 在 大 多 数 操作 系统 上 ， 内 核 都 会 缓冲 TO， 因 此 ， 很 幸运 ， 该 场景 不 会 在 每 次 调 
用 read() 方法 时 触发 一 次 磁盘 读 取 操作 。 但 是 这 种 缓冲 保存 在 内 核 中 ， 而 非 应 用 中 ， 这 就 
意味 着 每 次 读 取 一 个 字 节 时 ， 每 个 方法 调用 还 是 会 涉及 一 次 代价 高 昂 的 系统 调用 。 

写 数据 也 是 如 此 : 使 用 write() 方法 向 fiLe0utputStreanm 发 送 一 个 字 节 ， 也 需要 一 次 系统 
调用 ， 将 该 字 节 存储 到 内 核 缓 冲 区 中 。 最 后 〈 当 文件 关闭 或 刷新 时 ) ， 内 核 会 把 缓冲 区 中 
的 内 容 写 入 磁盘 。 

对 于 使 用 二 进 制 数据 的 文件 WO， 记 得 使 用 一 个 BufferedInputStream 或 BufferedOutputStream 
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来 包装 底层 的 文件 流 。 对 于 使 用 字符 (字符 捉 ) 数据 的 文件 WO， 记 得 使 用 一 个 
BufferedReader 或 BufferedWriter 来 包装 底层 的 流 。 
在 探讨 文件 IO 时 ， 这 一 性 能 问题 很 好 理解 ， 不 过 它 几 和 平 存 在 于 所 有 类 型 的 IO 中 。 从 
Socket 返回 的 流 (通过 getInputStream() 或 getOutputStream()) 是 以 同样 的 方式 运作 的 ， 
在 Socket 上 每 次 读 写 一 个 字 节 的 IO 操作 相当 慢 。 所 以 同样 要 记得 正确 地 使 用 一 个 缓冲 过 
滤器 流 来 包装 一 下 。 
在 使 用 ByteArrayInputStream 和 ByteArrayOutputStream 类 有 时， 微妙 的 问题 更 多 。 首 先 ， 
这 些 类 基本 上 就 是 大 的 内 存 缓冲 区 。 在 很 多 情况 下 ， 用 缓冲 管理 器 流 包装 它们 ， 意 味 着 数 
据 会 被 复制 两 次 : 一 次 是 缓冲 在 过 滤器 流 中 ， 一 次 是 缓冲 在 ByteArrayInputStrean 中 ( 输 
出 流 的 情况 相反 )。 除 非 还 设计 了 其 他 流 ， 否 则 这 种 情况 下 应 该 避免 缓冲 式 IO。 
涉及 其 他 过 滤器 流 时 是 否 要 用 缓冲 ， 这 个 问题 就 更 复杂 了 。 有 种 常见 的 情况 是 使 用 这 些 
流 来 序列 化 或 反 序列 化 数据 。 比 如 ， 第 10 章 就 探讨 了 显 式 地 管理 类 的 数据 序列 化 时 的 各 
种 性 能 得 失 。 在 那 一 章 中 ， 有 一 个 简化 版 的 write0bject() 方法 ， 如 下 所 示 : 

private void write0bject(0bjectOutputStream out) throws IOException { 


if (prices == nuLL) { 
makePrices(); 
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3 
out.defaultWriteObject(); 


} 


protected void makePrices() throws IOException { 
ByteArrayOutputStream baos = new ByteArrayOutputStream(); 
ObjectOutputStream oos = new ObjectOutputStream(baos); 
00s.writeObject(prices); 
oo0s.close(); 


} 
在 这 种 情况 下 ， 如 果 将 baos 流 包 装 在 一 个 BufferedoutputStrean 中 ， 因 为 多 了 一 次 数据 复 
制 ， 所 以 会 有 性 能 损失 。 
在 这 个 例子 中 ， 将 prices 数组 中 的 数据 压缩 一 下 ， 效 率 会 更 高 ， 而 代码 就 变 成 了 下 面 这 样 : 


private void writeObject(ObjectOutputStream out) throws IOException { 
if (prices == nuLL) { 
makeZzippedPrices(); 


tt 











} 
out.defaultWriteObject(); 


} 


protected void makeZzippedPrices() throws IOException { 
ByteArrayOutputStream baos = new ByteArrayOutputStream(); 
GZIPOutputStream zip = new GZIPOutputStream(baos ) ; 
BufferedOutputStream bos = new BufferedOutputStream(zip); 
ObjectOutputSstream oos = new ObjectOutputStream(bos); 
oos .Write0bject(prices ); 
oos.CLose(); 
zip.close(); 
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现在 ,缓冲 数据 流 就 是 必要 的 了 ， 因 为 GZIPOutputstreanm 处 理 一 块 数据 比 处 理 一 个 字 贡 的 
数据 更 高 效 。 在 上 面 这 两 种 情况 下 ，0Objectoutputstreanm 都 会 将 单字 节 数 据 发 送 给 下 一 个 
流 。 如 果 下 一 个 流 就 是 最 终 目的 地 ， 比 如 ByteArray0utputstreanm 这 种 情况 ， 则 无 需 缓冲 。 
而 如 果 中 间 还 有 另 一 个 过 滤器 流 (比如 这 个 例子 中 的 GZIPOutputstream)， 则 缓冲 往往 是 必 
要 的 。 
到 底 何 时 需要 在 两 个 不 同 的 流 中 间 插 入 一 个 缓冲 流 ， 并 没有 一 个 统一 的 规则 。 这 最 终 取 决 
于 所 用 流 的 类 型 但 是 在 多 数 情况 下 ， 操 作 一 块 数据 (来 自 缓冲 的 流 ) 通常 要 好 于 操作 一 
系列 单个 字 节 (来 自 ObjectOutputStreanm)。 

同样 的 情况 也 适用 于 输入 流 。 举 个 具体 的 例子 ，GZIPInputStrean 操作 一 块 字 市 数据 更 高 
效 ; 一 般 情况 下 ， 对 于 插入 在 0bjectInputStream 和 原始 的 字 节 数据 源 之 间 的 流 ， 如 果 配 
合 一 块 数据 ， 其 表现 会 更 好 。 


注意 ， 这 种 情况 特别 适用 于 编 解 码 器 流 。 当 在 字 市 和 字符 之 间 转 换 时 ， 操 作 尽 可 能 大 的 一 
段 数 据 ， 性 能 最 佳 。 如 果 提 供给 编 解码 器 的 是 单个 的 字 布 或 字符 ， 性 能 会 很 差 。 

郑重 声明 ， 我 在 编写 压缩 这 个 例子 时 犯 过 的 错误 就 是 没有 缓冲 gzip 流 。 如 表 12-1 中 的 数 
据 所 示 ， 这 个 错误 代价 很 高 。 


表 12-1: 压缩 情况 下 ， 序 列 化 / 反 序 列 化 10 000 个 对 象 所 需 时 间 
























































操作 序列 化 时 间 ( 秒 ) 反 序 列 化 时 间 ( 秒 ) 
无 缓冲 压缩 /解压 缩 60.3 79.3 
带 缓存 压缩 /解压 缩 26.8 12.7 














没有 正确 地 缓冲 TO， 人 性 能 差距 多 达 6 倍 。 























快速 小 结 
1. 围绕 缓冲 式 TO 有 一 些 很 常见 的 问题 ， 这 是 由 简单 输入 输出 流 类 的 默认 
实现 引发 的 。 


2. 文件 和 Socket 的 IO 必须 正确 地 缓冲 ， 对 于 像 压缩 和 字符 串 编 解码 等 内 
部 操作 ， 也 是 如 此 。 


12.2 类 加 载 


对 于 任何 尝试 优化 程序 启动 或 优化 新 代码 在 动态 系统 中 的 部 署 ( 比 如 向 Java EE 应 用 服务 
器 中 部 署 一 个 新 应 用 ， 或 者 是 在 浏览 器 中 加 载 一 个 Applet) 的 人 而 言 ， 类 加 载 的 性 能 都 让 
人 头疼 。 

原因 是 多 方面 的 。 最 主要 的 一 点 是 ， 类 数据 (也 就 是 Java 字 节 码 ) 通常 无 法 快速 访问 到 。 
它 必 须 从 磁盘 或 者 网 络 上 加 载 过 来 ， 必 须 能 在 classpath 下 的 革 个 JAR 文件 中 找到 ， 还 必 
须 能 在 某 个 类 加 载 嚣 中 找到 。 对 此 有 一 些 改 进 方案 ， 比 如 ，Java WebStart 会 将 从 网 络 读 取 
的 类 数据 写 入 一 个 隐藏 目录 ， 这 样 当 下 次 启动 同一 应 用 时 ， 就 可 以 从 本 地 磁盘 读 取 数据 ， 
而 不 再 需要 从 网 络 读 取 ， 速 度 得 以 提升 。 在 打包 应 用 时 ,减少 所 生成 的 JAR 文件 数 ， 也 能 
提升 类 加 载 的 性 能 。 
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在 复杂 环境 中 ， 提 升 速度 的 明显 方式 之 一 就 是 将 类 加 载 并 行 化 。 以 一 个 典型 的 应 用 服务 器 
为 例 : 在 启动 时 ， 它 可 能 需要 初始 化 多 个 应 用 ， 其 中 每 个 应 用 都 使 用 了 自己 的 类 加 载 器 。 
假设 有 多 个 CPU 可 供 大 部 分 应 用 服务 器 使 用 ， 并 行 化 应 该 有 明显 优势 。 


不 过 有 两 个 因素 会 影响 其 可 伸缩 性 。 第 一 ， 类 数据 很 可 能 保存 在 同一 个 磁盘 上 ， 因 此 如 果 
有 两 个 类 加 载 器 并 发 运行 ， 它 们 会 向 同一 设备 发 出 读 请 求 。 尽 管 操 作 系 统 擅 于 处 理 这 种 情 
况 : 它们 可 以 随 着 磁盘 旋转 ， 分 割 读 操 作 ， 并 抓 取 字 节 数 据 ， 但 是 此 时 磁盘 仍然 有 很 大 机 
会 成 为 瓶颈 。 

在 Java 7 之 前 ，ClassLoader 类 本 身 的 设计 一 直 存 在 一 个 比较 大 的 问题 。 如 图 12-1 所 示 ， 
Java 的 类 加 载 器 存在 于 一 个 层次 结构 中 ， 这 是 某 个 Java EE 容器 中 类 加 载 器 的 理想 情况 。 
当 运 行 在 第 一 个 Servlet 应 用 中 的 类 加 载 器 需要 某 个 类 时 ， 请 求 会 流向 第 一 个 Web 应 用 类 
加 载 器 (App Classloader)， 但 是 这 个 类 加 载 器 会 将 请 求 委派 给 其 父 类 加 载 器 ， 系统 类 加 载 
器 (System Classloader)。 它 是 与 classpath 关联 的 类 加 载 器 ， 负 责 加 载 Java EE 相关 的 类 
(比如 Java Server Faces， 即 JSF 接口 ) 以 及 这 些 类 在 该 容器 中 的 实现 。 系 统 类 加 载 器 也 会 
将 一 些 加 载 工 作 委派 给 其 父 类 加 载 器 ， 即 启动 类 加 载 器 (Bootstrap Classloader) ， 它 负责 加 


载 核心 JDK 类 六 
Web 应 用 类 加 载 器 Web 应 用 类 加 载 器 
net.sdo.app2.* net.sdo.app2.* 


系统 类 加 载 器 
javax.jsf.* 
org.glassfish.* 











































































































































启动 类 加 载 器 


java.lang.* 














图 12-1: 多 个 类 加 载 器 的 理想 结构 


最 后 的 结果 是 ， 当 请 求 加 载 一 个 类 时 ， 启 动 类 加 载 器 是 尝试 去 找 这 个 类 的 第 一 段 代 码 ， 之 
后 是 系统 类 加 载 器 《classpath) ， 再 找 不 到 则 诉 诸 应 用 类 加 载 器 。 从 功能 角度 看 ， 这 是 说 得 
通 的 : java,Lang.String 类 的 字 市 码 必须 由 启动 类 加 载 器 加 载 ， 而 不 能 是 由 层次 结构 中 的 
其 他 某 个 类 加 载 器 有 意 或 无 意 加 载 的 别 的 实现 。 


在 Java 7 之前， 类 加 载 器 存在 的 问题 是 ， 用 于 加 载 类 的 方法 是 同步 的 ， 在 某 个 时 刻 ， 只 有 一 
个 类 加 载 器 可 以 将 任务 委派 给 系统 类 加 载 器 。 这 对 使 用 多 个 类 加 载 器 实现 并 行 化 有 着 极 大 限 


























注 1: Java 的 类 加 载 器 使 用 了 双亲 委派 模型 ， 一 个 类 加 载 器 在 收 到 加 载 类 的 请 求 后 ， 首 先 会 把 这 个 请 求 委派 
给 父 类 加 载 器 去 完成 ， 每 个 层次 的 类 加 载 器 都 如 此 处 理 ， 一 直到 启动 类 加 载 器 ， 如 果 局 动 类 加 载 器 无 
法 完成 加 载 请 求 ， 才 会 沿 这 个 路 径 返 回 ， 找 到 合适 的 类 加 载 器 。 一 一 译 者 注 
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制 ， 因 为 每 个 类 加 载 器 都 要 等 待 ， 只 有 轮 到 它 时 ， 才 能 访问 系统 类 加 载 器 和 启动 类 加 载 器 。 
Java 7 利用 一 组 基于 类 名 的 锁 解 决 了 这 种 状况 。 现在 ， 如 果 有 两 个 类 加 载 器 在 寻找 同一 个 
类 ， 它 们 仍然 会 争 用 某 个 锁 ， 但 是 类 层次 结构 中 寻找 其 他 类 的 类 加 载 器 可 以 并 行 执行 。 


如 果 使 用 了 诸如 URLCLassLoader 等 Java 提供 的 类 加 载 器 ， 也 能 体会 到 Java 7 带 来 的 这 一 
好 处 。 在 Java 6 中 ， 如 果 其 他 的 类 加 载 器 以 URLCLassLoader 为 父 类 加 载 器 ， 它 会 成 为 并 行 
操作 的 同步 瓶颈 ， 而 在 Java 7 中 ， 类 加 载 器 可 以 并 行使 用 。Java 7 所 提供 的 类 加 载 器 是 可 
以 并 行 的 (parallel-capable) 。 


自 定义 的 类 加 载 器 默认 是 不 支持 并 行 的 。 如 末 希 望 自己 的 类 加 载 器 也 能 并 行使 用 ， 必 须 采 
取 一 些 措施 。 措 施 总 共 分 为 两 步 。 

首先 ， 确 保 类 加 载 器 的 层次 结构 中 没有 任何 回环 。 回 环 并 不 多 见 。 如 果 存 在 回环 ， 代 码 会 
很 难 维护 ， 因 为 在 某 一 时 刻 ， 某 个 类 加 载 器 必须 直接 满足 请 求 ， 而 不 能 将 请 求 传 给 其 父 类 
加 载 器 (否则 委派 就 成 了 无 限 循 环 )。 因 此 ， 对 于 一 组 存在 回环 的 类 加 载 器 而 言 ， 尽 管 在 
技术 上 支持 并 行 是 可 能 的 ， 但 是 过 程 会 非常 复杂 (要 在 本 已 非常 复杂 的 代码 上 实现 )。 
为 编写 高 性 能 Java 代码 的 一 个 规则 是 采用 惯用 的 方法 ， 以 及 编写 便于 编译 器 优化 的 简单 代 
码 ， 所 以 我 们 不 推荐 使 用 存在 回环 的 类 加 载 器 层次 结构 。 

第 二 ， 在 定义 加 载 器 类 时 ， 在 静态 初始 化 部 分 将 其 注册 为 可 以 并 行 的 : 


public class MyCustomClassLoader extends SecureClassLoader { 







































































static { 
registerAsParallelCapable(); 
} 


} 


这 个 调用 必须 放 在 每 个 具体 的 类 加 载 器 实现 之 内 。SecureClassLoader 本 身 是 可 以 并 
行 的 ， 但 是 其 子 类 并 不 会 自动 具备 这 种 能 力 。 如 果 在 我 们 的 代码 内 还 有 一 个 类 继承 了 
MyCustomClassLoader ， 那 个 类 也 必须 自己 注册 为 支持 并 行 的 。 


对 于 大 部 分 类 加 载 器 而 言 ， 只 需要 这 两 步 。 在 编写 类 加 载 器 时 ， 建 议 重 写 findClass() 方 
法 。 如 果 自 定义 的 类 加 载 器 重 写 的 是 LoadCLass() 方法 ， 而 非 fitndCLass() 方法 ， 则 一 定 
要 确保 在 每 个 类 加 载 器 实例 内 ， 对 于 每 个 类 名 ，defineClass() 方法 只 调用 一 次 。 


在 涉及 围绕 锁 的 可 伸缩 性 时 ， 和 与 此 有 关 的 所 有 性 能 问题 一 样 ， 该 优化 的 性 能 净 收 益 还 与 
代码 被 锁 住 多 入 有 关 。 举 一 个 简单 的 例子 ， 考 虑 如 下 代码 : 

URL url = new File(args[0]).toURL(); 

URLCLassLoader ucl = new URLCLassLoader (url); 


for (String className : classNames) { 
ucl.loadClass(classNanme); 



























































} 
在 命令 行 中 ， 一 个 JAR 文件 的 名 字 被 作为 args 的 第 一 个 元 素 传 人 人 了， 这 里 自 定义 的 类 加 
载 器 会 在 这 个 JAR 文件 中 查找 。 它 会 遍历 由 类 名 组 成 的 数组 (在 其 他 地 方 定义 )， 并 从 这 
个 JAR 文件 中 加 载 每 个 类 。 
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其 父 类 加 载 器 就 是 系统 类 加 载 器 (查找 classpath) 。 当 有 两 个 或 多 个 线程 并 发 执行 这 个 循 
环 时 ， 因 为 它们 会 把 类 的 查找 委派 给 系统 类 加 载 器 ， 所 以 两 个 线程 会 彼此 等 待 。 表 12-2 列 
出 了 当 系 统 的 classpath 为 空 时 该 循环 的 性 能 。 


表 12-2: 并 发 加 载 类 的 时 间 (classpath 为 空 








线程 数 ”在 JDK 7 中 用 的 时 间 ( 秒 ) ”在 JDK 6 中 用 的 时 间 ( 秒 ) 





1 30.353 27.696 
2 34.811 31.409 
4 48.106 72.208 
8 117.34 184.45 











这 是 有 1500 个 类 的 类 名 列表 循环 100 次 所 用 的 时 间 。 这 里 可 以 得 出 儿 个 有 趣 的 结论 。 首 
先 ，JDK 7 中 的 代码 更 为 复杂 (以 支持 并 行 加 载 )， 因 此 会 在 最 简单 的 情况 下 引入 一 点 点 性 
能 损失 一 一 这 是 越 简 单 的 代码 跑 得 越 快 这 一 原则 的 一 个 例证 。 即 使 在 两 个 线程 的 情况 下 ， 
JDK 7 的 新 模型 还 是 要 稍微 慢 点 ， 因 为 代码 在 父 类 加 载 器 中 几乎 没 花 时 间 : 被 锁 在 父 类 加 











载 器 上 所 花 的 时 间 ， 远 远 不 及 在 程序 其 他 地 方 所 花 的 时 间 多 。 


当 有 4 个 线程 时 ， 情 况 就 不 一 样 了 。 首 先 ， 在 有 4 个 CPU 的 机 器 上 ， 这 4 个 线程 会 与 其 
他 进程 (尤其 像 正 在 显示 用 到 了 Flash 的 页 面 的 浏览 器 ， 它 





























会 占用 一 个 CPU 的 40%) 和 争 用 




















CPU 周期 。 因 此 即使 在 JDK 7 中 ， 伸 缩 也 不 是 线性 的 。 但 至 少 可 伸缩 性 有 了 提高 : 在 JDK 











6 中 ， 围 绕 父 类 加 载 器 的 竞争 非常 严重 。 























产生 这 种 竞争 有 两 个 原因 。 首 先 ， 争 用 CPU 实际 上 会 增加 类 加 载 器 锁 的 持 有 时 间 ， 其 次 ， 











争 用 锁 的 线程 数 也 成 了 原来 的 2 倍 。 





增加 系统 classpath 的 长 度 也 会 极 大 增加 父 类 加 载 器 锁 的 持 有 时 间 。 表 12-3 重复 了 这 个 实 


验 ，classpath 下 有 266 个 条 目 (GlassFish 发 行 版 中 的 JAR 文件 数 )。(GlassFish 不 会 简单 














地 把 这 些 文件 都 放 到 一 个 类 加 载 器 中 ， 之 所 以 选择 它 ， 只 是 方便 举例 而 已 。) 
表 12-3: 并 发 加 载 类 的 时 间 (classpath 较 长 的 情况 ) 
线程 数 。” ”在 JDK 7 中 用 的 时 间 ( 秒 ) ”在 JDK 6 中 用 的 时 间 ( 秒 ) 





1 98.146 92.129 
2 111.16 316.01 
4 150.98 708.24 
8 287.97 1461.5 


现在 ， 即 便 只 有 两 个 线程 ， 竞 争 也 非常 严重 : 没有 支持 并 行 的 类 加 载 器 ， 加 载 这 些 类 的 时 
间 是 原来 的 3 倍 。 如 果 是 在 压力 已 经 很 大 的 系统 中 ， 可 伸缩 性 就 更 糟糕 了 。 最 后 ， 性 能 会 








慢 7 倍 。 


这 里 有 一 个 有 趣 的 取舍 : 是 采用 更 复杂 的 代码 ， 稍 微 牺牲 














下 单线 程 情况 下 的 性 能 ， 还 是 





针对 其 他 情况 做 优化 一 一 特别 是 像 上 面 例子 中 的 情况 ， 两 种 选择 的 性 能 差距 非常 大 。 这 种 
团队 将 第 2 种 选择 当 作 了 默认 情况 。 作 为 一 个 
平台 ， 同 时 提供 这 两 种 选择 是 个 不 错 的 主意 (即使 默认 的 只 能 有 一 个 )。 因 此 ， 在 JDK 7 


性 能 取舍 时 常会 遇 到 ， 在 这 种 情况 下 ，JDK 
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中 ， 要 想 获得 JDK 6 的 这 种 行为 ， 可 以 使 用 -XX:+ALwaysLockCLassLoader 标志 ( 它 默 认为 
false) 开启 。 如 果 启 动 周期 较 长 ， 而 且 没 有 并 发 的 线程 会 从 不 同 的 类 加 载 中 加 载 类 ， 这 种 
情况 使 用 该 标志 可 能 稍微 有 好 处 。 


快速 小 结 

1. 在 存在 多 个 类 加 载 器 的 复杂 应 用 (特别 是 应 用 服务 器 ) 中 ， 让 这 些 类 加 

载 器 支持 并 行 ， 可 以 解决 系统 类 加 载 器 或 者 启动 类 加 载 器 上 的 瓶颈 问题 。 

2. 如 果 应 用 是 在 单线 程 内 ， 则 通过 一 个 类 加 载 器 加 载 很 多 类 ， 关 掉 Java 7 
支持 并 行 的 特性 可 能 会 有 好 处 。 


12.3 ”随机 数 


Java7 提供 了 3 个 标准 的 随机 数 生 成 器 类 : java.util.Random、java.util.concurrent. 
ThreadLocalRandon 以 及 java.security.SecureRandom。 这 三 个 类 在 性 能 方面 差距 很 大 。 


Random 和 ThreadLocalRandon 两 个 类 的 差别 是 ，Random 类 的 主要 操作 (nextGaussian()) 是 
同步 的 。 任 何 要 获取 随机 值 的 方法 都 会 用 到 这 个 方法 ， 所 以 不 管 如 何 使 用 该 随机 数 生成 
器 ， 都 会 存在 锁 竞 争 : 如 果 两 个 线程 同时 使 用 同一 随机 数 生成 器 ， 那 一 个 线程 要 等 待 男 一 
个 先 完成 其 操作 。 之 所 以 会 使 用 ThreadLocalRandom， 原 因 就 在 于 此 : 每 个 线程 都 有 自己 的 
随机 数 生成 器 ，Random 类 的 同步 就 不 是 问题 了 。( 正 如 第 7 章 所 讨论 的 ， 因 为 创建 对 象 成 
本 很 高 ， 而 ThreadLocaLRandonm 类 会 重用 对 象 ， 所 以 有 很 大 的 性 能 优势 。) 


SecureRandon 类 与 上 面 介绍 的 两 个 类 的 区 别 是 ， 所 用 的 算法 不 同 。Random 类 (以 及 继承 它 
而 来 的 ThreadLocalRandom) 实现 了 一 个 典型 的 伪 随 机 数 算 法 。 尽 管 那些 算法 非常 复杂 ， 但 
到 底 是 确定 性 的 。 如 果 知 道 初 始 种 子 ， 很 容易 确定 该 引擎 将 生成 的 数字 的 精确 序列 。 这 意 
味 着 ， 黑 客 能 够 从 特定 的 生成 器 看 到 数字 序列 ， 也 就 能 够 指出 下 一 个 数字 是 什么 。 尽 管 好 
的 伪 随 机 数 生成 器 可 以 生成 看 上 去 真正 随机 的 数字 序列 (其 至 符合 随机 性 的 概率 期 望 )， 
但 这 仍然 不 是 真正 的 随机 。 


而 另 一 方面 ，SecureRandom 类 使 用 一 个 系统 接口 来 获得 随机 数 。 数 据 生成 方式 与 所 用 的 操 
作 系 统 有 关 ， 不 过 一 般 而 言 ， 这 类 源 "提供 了 基于 真正 随机 事件 (比如 鼠标 移动 时 ) 的 数 
据 。 这 就 是 所 谓 的 基于 灶 的 随机 性 ， 比 依赖 随机 数 的 操作 更 安全 。SSL 录 是 这 类 操作 中 最 
广为人知 的 例子 : 加 密 所 用 的 随机 数 不 可 能 通过 基于 信 的 源 来 确定 。( 即 便 在 算法 中 使 用 
了 SecureRandon 随机 数 生成 器 ， 还 是 有 其 他 方式 可 以 攻破 数据 的 加 密 算法 。) 

遗憾 的 是 ， 计 算 机 生成 的 箭 的 数量 是 有 限 的， 所 以 要 从 一 个 安全 随机 数 生成 器 获得 大 量 的 随 
机 数 ， 需 要 很 长 时 间 。 调 用 SecureRandom 类 的 nextRandom() 方法 消耗 的 时 间 并 不 确定 ， 跟 系 
统 中 还 有 多 少 炉 尚未 使 用 有 关 。 如 末 没 有 烂 可 用 ， 这 个 调用 看 上 去 就 挂 起 了 ， 可 能 一 次 长 达 
数秒 ， 直 到 有 可 用 的 灶 为 止 。 所 以 对 性 能 的 计时 非常 困难 ， 因 为 性 能 本 身 也 是 随机 的 。 

对 于 会 创建 很 多 SSL 连接 ， 或 者 需要 大 量 安全 随机 数 的 应 用 而 言 ， 这 往往 会 成 为 问题 ， 这 
样 的 应 用 要 花 很 多 时 间 去 执行 其 操作 。 当 在 一 个 这 样 的 应 用 上 执行 性 能 测试 时 ， 请 注意 ， 计 



















































































注 2: 这 里 的 源 类 似 于 伪 随 机 数 中 的 初始 种 子 。 一 一 译 者 注 
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时 会 有 很 多 变数 。 除 了 像 第 2 章 讨论 的 那样 运行 大 量 示例 测试 ， 其 实 没 什么 办 法 处 理 此 类 变 
数 。 另 一 种 选择 是 联系 操作 系统 厂商 ， 看 他 们 是 不 是 有 更 多 (或 更 好 的 ) 基于 信 的 源 。 


必要 时 ， 可 以 使 用 第 3 种 选择 ， 即 使 用 Randon 类 运行 性 能 测试 ， 即 便 在 生产 环境 中 使 用 
的 是 secureRandon 类 。 如 果 性 能 测试 是 模块 级 的 ， 这 会 很 有 意义 : 在 同样 的 一 段 时 间 内 ， 
与 产品 系统 相 比 ， 这 些 测 试 需要 的 随机 数 更 多 (比如 需要 更 多 SSL 套 接 字 )。 但 是 ， 最 终 
预期 的 负载 必须 用 SecureRandom 类 来 测试 ， 以 确定 生产 系统 上 的 负载 是 否 能 够 获得 足够 的 
随机 数 。 























快速 小 结 
1.Java 默认 的 Random 类 的 初始 化 的 成 本 很 高 ， 但 是 一 旦 初始 化 完毕 ， 就 可 
以 重用 。 





2. 在 多 线程 代码 中 ， 应 该 首选 ThreadLocaLRandom 类 。 
3.，SecureRandonm 类 表现 出 的 性 能 也 是 随意 的 和 完全 随机 的 。 在 对 用 到 这 个 
类 的 代码 做 性 能 测试 时 ， 一定 要 认真 规划 。 


12.4 ” Java 原生 接口 
如 果 想 编写 尽 可 能 快 的 代码 ， 要 避免 使 用 JNI。 


在 现行 的 JVM 版 本 上 ， 编 写 得 好 的 Java 代码 至 少 会 与 相应 的 C 或 C++ 代码 跑 得 一 样 快 
(现在 可 不 是 1996 年 了 )。 语 言 纯 粹 主义 者 会 继续 争论 Java 和 其 他 语言 的 相对 性 能 指标 ， 
当然 肯定 能 找到 相应 的 例子 ， 证 明 用 其 他 语言 编写 的 应 用 比 用 Java 编写 的 相同 应 用 快 (不 
过 这 类 例子 中 往往 会 包含 写 得 很 差 的 Java 代码 ) 。 然 而 ， 这 类 争论 并 非 本 闻 的 要 领 ， 这 里 
要 说 的 是 : 如 果 某 个 应 用 已 经 是 用 Java 编写 的 ， 那 出 于 性 能 原因 调用 原生 代码 几乎 总 是 一 
个 坏 主意 。 


JNI 有 时 仍然 非常 有 用 。Java 平台 提供 了 不 同 操作 系统 的 很 多 公共 特性 ， 但 如 果 需 要 访问 
一 个 特殊 的 、 特 定 于 操作 系统 的 函数 ， 那 JNI 就 派 上 用 场 了 。 如 果 有 现成 的 商用 原生 代 
码 ， 那 为 什么 还 要 构建 自己 的 执行 操作 的 库 呢 ? 在 这 种 情况 和 其 他 一 些 情况 下 ， 问 题 就 变 
成 了 如 何 编写 最 高 效 的 JNI 代码 。 

答案 是 尽 可 能 避免 从 Java 调用 C。 跨 JNI 边 界 (边界 是 描述 跨 语言 调用 的 术语 ) 成 本 非常 
高 ， 这 是 因为 ， 调 用 一 个 现 有 的 C 库 首 先 需 要 一 些 胶水 代码 ， 需 要 花 时 间 通 过 胶水 代码 创 
建新 的 、 粗 粒度 的 接口 ， 一 下 子 要 多 次 进入 C 库 。 
有 趣 的 是 ， 反 过 来 就 未 必 如 此 了 : 从 C 代码 调用 回 Java 不 会 有 很 大 的 性 能 损失 (与 所 用 
的 参数 有 关 )。 上 比如， 考虑 下 面 的 代码 : 


public void main() { 
calculateError(); 






















































































} 


public void calculateError() { 
for (int i = 0; i < numberOfTrials; i++) { 
error += 50 - calc(numberOofIterations); 


} 
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public double calc(int n) { 
double sum = 0; 
for (int i = 0; i < n; i++) { 
int r = random(100); // 返回 1 至 100 之 间 的 一 个 随机 值 
Sum += r; 





} 


return sum / n; 


} 
这 段 (完全 没有 实际 意义 的 ) 代码 有 两 个 主 循环 ， 内 层 循 环 多 次 调用 生成 随机 数 的 代码 ， 
外 层 循 环 重复 调用 内 层 循 环 ， 看 看 所 得 的 随机 数 与 预期 值 (这 里 是 50) 的 接近 程度 。 通 过 
JNI， 可 以 用 C 实现 calculateError()、calc() 和 random() 这 些 方法 中 的 任何 一 个 或 多 个 。 
表 12-4 展示 了 不 同 组 合 情 况 下 的 性 能 ， 其 中 numberofTrials 为 10 000。 


表 12-4: 计算 随机 方法 的 error 的 时 间 


























caLcuLateError Calc Random JNI 转 移 总 时 间 ( 秒 ) 
Java Java Java 0 12.4 
Java Java C 10 000 000 32.1 
Java C C 10 000 24.4 
C Java Java 10 000 12.4 
已 C C 0 12.4 











仅 用 JNI 调用 实现 最 内 层 方法 ， 跨 JNI 边界 的 次 数 最 多 (numberofTrials * numberOfLoops， 
1 千 万 次 )。 将 跨 边 界 次 数 减少 到 numberofTrials ( 即 10 000) 可 以 大 幅 减 少 开 销 ， 而 将 其 
减 到 0， 性 能 会 最 好 一 一 至 少 从 JNI 角度 看 是 这 样 ， 尽 管 纯 Java 实现 和 完全 使 用 原生 代码 
一 样 快 。 

如 果 所 用 的 参数 不 是 简单 的 基本 类 型 ，JNI 代码 性 能 会 更 精 。 这 一 开销 涉及 两 个 方面 。 第 
一 ， 对 于 简单 的 引用 ， 需 要 地 址 转换 。 这 也 是 为 什么 在 上 面 的 例子 中 ， 从 Java 调用 C 比 
从 C 调用 Java 开销 更 大 : 从 Java 调用 C， 会 隐 式 地 把 问题 中 的 对 象 (this) 传递 给 C 函 
数 ， 从 C 调用 Java 则 无 需 传 递 任 何 对 象 。 


第 二 ， 对 于 基于 数组 的 数据 ， 其 中 的 操作 在 原生 代码 中 会 进行 特殊 处 理 。 这 包括 String 对 
象 ， 因 为 字符 串 数 据 本 质 上 是 一 个 字符 数组 。 要 访问 这 类 数组 中 的 单个 元 素 ， 必 须 调 用 一 
个 特殊 的 方法 ， 将 该 对 象 固定 在 内 存 中 (对 于 String 对 象 ， 要 将 其 从 Java 的 UTF-16 编码 
转换 成 UTF-8)。 当 不 再 需要 数组 时 ， 必 须 在 JNI 代码 中 显 式 地 释放 。 当 有 数组 被 固定 在 
内 存 中 时 ， 垃 圾 收集 器 就 无 法 运行 一 一 所 以 JNI 代码 中 代价 最 高 的 错误 之 一 就 是 在 长 期 运 
行 的 代码 中 国定 了 一 个 字符 串 或 数组 。 这 会 阻碍 垃圾 收集 器 运行 ， 实 际 上 也 阻塞 了 所 有 应 
用 线程 ， 直 到 JNI 代码 完成 。 对 于 会 固定 数组 的 临界 区 ， 尽 可 能 缩短 固定 时 间 极 为 重要 。 


有 时， 后 面 这 个 目标 会 与 减少 跨 JNI 边界 调用 这 个 目标 冲突 “。 这 种 情况 下 ， 后 一 个 目标 更 





























































































































注 3: 这 里 是 指 ， 本 来 一 次 JNI 调用 可 以 完成 的 事情 ， 
以 防 影 响 垃圾 收集 器 工作 。 译 者 注 


王 
Ea 


为 要 缩短 固定 数组 的 时 间 ， 所 以 可 能 要 分 成 儿 次 ， 
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重要 : 即使 这 意味 着 要 多 次 跨 JNI 边界 ， 也 要 让 固定 数组 和 字符 串 的 代码 区 尽 可 能 短 。 


快速 小 结 


1. JNI 并 不 能 解决 性 能 问题 。Java 代码 几乎 总 是 比 调用 原生 代码 跑 得 快 。 





2. 当 使 用 JNI 时 ， 应 该 限制 从 Java 到 C 的 调用 次 数 ; 





本 很 高 。 





跨 JNI 边 界 的 调用 成 


3. 使 用 数组 或 字符 串 的 JNI 代码 必须 固定 这 些 对 象 ， 为 避免 影响 垃圾 收集 





器 ， 应 该 限制 固定 对 象 的 时 间 。 





12.5 “异常 





Java 的 异常 处 理 一 直 有 代价 高 郧 的 坏 名 声 。 其 代价 确实 比 处 理 正 常 的 控制 流 高 一 些 ， 
在 大 多 数 情况 下 ， 这 种 代价 并 不 值得 浪费 精力 去 绕 过 。 男 一 方面 ， 因 为 异常 处 理 是 
的 ， 所 以 不 应 将 其 用 作 一 种 通用 机 制 。 这 里 的 指 
来 使 用 异常 : 基本 上 ， 代 码 仅 应 该 通过 抛 出 异常 来 说 明 发 生 了 意料 之 外 的 情况 


























导 方 针 是 ， 根 据 良 好 程序 设计 的 一 
。 遵 循 良好 





的 代码 设计 原则 ， 意 味 着 Java 代码 不 会 因 异 常 处 理 而 变 慢 。 


有 两 个 因素 会 影响 异常 处 理 的 一 般 性 能 。 一 个 是 区 创建 一 个 try-catch 块 代价 高 
情况 已 非 如 此 。 不 过 在 互联 网 上 有 些 信息 





吗 ? 尽管 很 久 以 前 可 能 是 这 样 ， 但 是 近 几 年 来 ， 


会 留存 很 入 ， 所 以 偶尔 还 会 看 到 有 人 建议 避免 使 用 异常 ， 因 为 try-catch 块 代价 较 高 。 














建议 都 是 老 黄历 了 ， 因 为 现代 JVM 生成 的 代码 可 以 非常 高 效 地 处 理 异常 。 
第 二 个 方面 是 ，( 大 部 分 ) 异常 会 涉及 获取 该 异常 发 生 时 的 栈 轨 迹 信 息 。 这 一 操作 代价 可 























能 会 很 高 ， pe ete 


下 面 看 一 个 例子 。 假 如 现在 有 一 个 特定 方法 的 3 种 实现 : 


public ArrayList<String> testSystemException() { 


ArrayList<String> al = new ArrayList<>(); 
for (int i = 0; i < numTestLoops; i++) { 


Object o = null; 

if ((i % exceptionFactor) != 0) { 
0 = new Object(); 

} 


try { 
al.add(o.toString()); 


} catch (NullPointerException npe) { 


a // 继续 获取 下 一 个 字符 串 
} 


return al; 


} 


public ArrayList<String> testCodeException() { 
ArrayList<String> al = new ArrayList<>(); 


for (int i = 0; i < numTestLoops; i++) { 


try { 
if ((i % exceptionFactor) == 


0) { 


throw new NullPointerException("Force Exception"); 


不 过 
有 成 本 
般 原则 


这 些 
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} 
Object o = new Object(); 
al.add(o.toString()); 

} catch (NullPointerException npe) { 
// 继续 获取 下 一 个 字符 串 





return al; 


public ArrayList<String> testDefensiveprogramming() { 
ArrayList<String> al = new ArrayList<>(); 
for (int i = 0; i < numTestLoops; i++) { 
Object o = null; 
if ((i % exceptionFactor) != 0) { 
0 = new Object(); 


} 
if (o != nuLL) { 
al.add(o.toString()); 
} 
} 


return al; 


} 
每 个 方法 都 返回 一 个 字符 串 数组 ， 其 元 素 是 从 新 创建 的 对 象 得 到 的 。 数 组 的 大 小 会 变化 ， 
跟 抛 出 异常 的 次 数 有 关 。 
表 12-5 列 出 了 在 最 坏 情 况 下 ( 即 exceptionFactor 为 1， 每 次 友 代 都 会 生成 异常 ， 得 到 的 
结果 是 一 个 空 列表 ) 为 100 000 次 迭代 执行 每 个 方法 的 时 间 。 示 例 代码 中 ， 有 的 方法 栈 轨 
迹 很 浅 ( 当 调用 这 个 方法 时 ， 栈 上 只 有 3 个 类 )， 有 的 栈 轨迹 很 深 ( 当 调 用 这 个 方法 时 ， 
栈 上 有 100 个 类 )。 
表 12-5: 100% 产 生 异 常 时 的 处 理 时 间 

















态 法 浅 时 间 ( 毫秒 ) 深 时 间 ( 毫秒 ) 
代码 异常 381 10 673 

系统 异常 15 15 

防御 性 编程 2 2 





这 里 有 3 点 有 趣 的 差别 。 首 先 ， 在 每 次 迭代 显 式 地 构建 异常 的 代码 中 ， 栈 较 浅 和 栈 较 深 两 
种 情况 下 时 间 差 别 很 大 。 构 建 栈 轨 迹 需要 时 间 ， 这 个 时 间 和 栈 的 深度 有 关 。 

第 二 个 有 趣 的 差别 在 这 两 种 情况 之 间 : 代码 显 式 地 创建 异常 ， 或 者 是 当 JVM 解析 到 空 指 
针 时 创建 异常 〈 见 表 中 的 前 两 行 )。 目 前 的 情况 是 ， 在 某 一 个 时 刻 ， 编 译 器 会 优化 掉 系 统 
生成 的 异常 ，JVM 开始 重用 同一 个 异常 对 象 ， 而 不 是 每 次 需要 时 创建 一 个 新 的 。 不 管 调用 
栈 是 什么 样 的 ， 相 关 的 代码 每 次 执行 时 都 会 重用 这 个 对 象 ; 而 且 这 个 异常 实际 上 没有 包含 
调用 栈 (也 就 是 说 ，printStackTrace() 没有 输出 )。 这 种 优化 在 完整 的 栈 异 常 信息 抛 出 很 
长 一 段 时 间 之 后 才 会 出 现 ， 所 以 如 果 测 试用 例 中 没有 包含 足够 长 的 热身 周期 ， 是 不 会 看 到 
这 种 效果 的 。 
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最 后 ， 在 访问 对 象 之 前 先 判断 一 下 是 否 为 nutL， 这 种 防御 性 编程 性 能 最 好 。 在 这 个 例子 
中 ， 这 一 点 并 不 意外 ， 因 为 整个 循环 变 成 了 空 操作 。 所 以 对 这 个 数字 要 持 保 留 态 度 。 
尽管 这 些 实现 存在 一 些 差别 ， 但 是 请 注意 ， 大 部 分 情况 下 ， 所 用 的 时 间 都 很 少 ， 是 毫秒 级 
的 。 平 均 到 100 000 次 调用 ， 每 次 调用 的 执行 时 间 几 乎 看 不 到 什么 差别 ( 别 忘 了 ， 这 还 是 
最 坏 的 情况 ) 。 

如 果 异 常 使 用 得 当 ， 这 些 循环 中 的 异常 数目 就 会 非常 小 。 表 12-6 列 出 了 执行 100 000 次 循 
环 时 ， 产 生 1000 次 异常 (1% 的 几率 ) 需要 的 时 间 。 

表 12-6: 有 1% 的 几率 产生 异常 时 的 处 理 时 间 

















方法 浅 时 间 ( 毫秒 ) 深 时 间 ( 毫秒 ) 
代码 异常 56 157 

系统 异常 51 52 

防御 性 编程 50 50 





现在 tostring() 方法 的 处 理 时 间 成 了 计算 的 大 头 。 在 栈 较 深 的 情况 下 ， 创 建 异 常 仍然 有 性 
能 损失 ， 不 过 提前 测试 nutl 值 的 收益 都 被 抵消 了 。 


所 以 异常 使 用 不 当 所 带 来 的 性 能 损失 并 没有 想象 的 那么 大 。 有 些 情况 下 ， 我 们 仍然 会 遇 
到 创建 太 多 异常 的 代码 。 因 为 性 能 损失 主要 来 自 填 充 栈 轨迹 信息 ， 因 此 可 以 使 用 -XxX:- 
StackTraceInThrowable 标志 (默认 为 false) 来 禁止 生成 栈 轨迹 信息 。 


这 并 不 是 个 好 主意 ， 栈 轨迹 的 存在 就 是 为 帮 我 们 分 析 哪 里 出 问题 的 。 如 果 使 用 了 -XX:- 
stackTraceInThrowable 标志 ， 也 就 丢失 了 这 种 能 力 。 而 且 有 些 代码 实际 上 会 检查 栈 轨迹 ， 
并 以 此 确定 如 何 从 异常 恢复 。(CORBA 的 参考 实现 就 是 这 么 工作 的 。) 这 种 方式 本 身 就 有 
问题 ， 但 关键 还 在 于 禁止 栈 跟踪 信息 会 使 代码 出 现 莫名 其 妙 的 问题 。 


JDK 中 有 些 API 的 异常 处 理会 导致 性 能 问题 。 当 集合 中 并 不 存在 要 检索 的 元 素 时 ， 很 
多 集合 类 就 会 抛 出 异常 。 比 如 Stack 类 ， 如 果 栈 是 空 的 ， 当 调用 pop() 时 ， 就 会 抛 出 
EmptyStackException。 这 种 情况 下 ， 先 通过 防御 性 编程 方式 检查 一 下 栈 的 长 度 会 好 一 些 。 
( 另 一 方面 ， 和 很 多 集合 类 不 同 的 是 ，Stack 类 支持 保存 为 nutl 的 对 象 ， 所 以 不 能 用 pop() 
方法 返回 null 来 说 明 栈 是 空 的 。 ) 

关于 异常 的 不 当 使 用 ，JDKE 中 最 臭名 昭著 的 例子 是 类 加 载 : 当 使 用 ClassLoader 类 的 
loadClass() 方法 加 载 某 个 找 不 到 的 类 时 ， 就 会 抛 出 ClassNotFoundException。 这 实际 并 不 
是 一 个 异常 条 件 。 不 要 期 望 一 个 类 加 载 器 能 知道 如 何 加 载 应 用 中 的 每 个 类 ， 这 也 是 之 所 以 
会 有 类 加 载 器 的 层次 结构 的 原因 了 。 

在 一 个 存在 大 量 类 加 载 器 的 环境 中 ， 这 意味 着 ， 在 层次 化 的 类 加 载 器 中 搜索 知道 如 何 加 载 
给 定 类 的 那个 类 加 载 器 时 ， 会 有 大 量 的 异常 。 比 如 在 本 章 前 面 类 加 载 的 例子 中 ， 如 果 关 闭 
栈 轨迹 信息 ， 运 行 速度 会 提升 3%。 

不 过 ， 类 加 载 只 是 个 例外 。 那 个 例子 是 使 用 很 长 的 classpath 做 的 微 基准 测试 ， 而 且 即 便 是 
在 这 样 的 条 件 下 ， 每 次 调用 的 差别 也 是 毫秒 级 的 。 
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快速 小 结 

1， 处 理 异 常 的 代价 未 必 会 很 高 ， 不 过 还 是 应 该 在 适合 的 时 候 才 用 。 

2， 栈 越 深 ， 处 理 异 常 的 代价 越 高 。 

3， 对 于 会 频繁 创建 的 系统 异常 ，JVM 会 将 栈 上 的 性 能 损失 优化 掉 。 

4. 关闭 异常 中 的 栈 轨 迹 信息 ， 有 时 可 以 提高 性 能 ， 不 过 这 个 过 程 往往 会 丢 
失 一 些 关 键 信息 。 


m1 A 各 

12.6 ”字符 串 的 性 能 

字符 串 对 Java 非常 重要 ， 甚 性 能 在 其 他 章节 也 已 经 讨论 过 ， 这 里 再 强调 几 点 。 

字符 串 保留 
创建 多 个 包含 相同 字符 序列 的 字符 串 对 象 ， 这 种 情况 很 常见 。 没 有 必要 在 堆 中 为 所 有 这 
些 对 象 都 分 配 空间 ， 因 为 字符 串 是 不 可 变 的 ， 所 以 重用 现 有 的 字符 串 往 往 更 好 。 更 多 细 
节 可 参见 第 7 章 。 

字符 串 编码 
Java 的 字符 串 采 用 的 是 UTF-16 编码 ,而 其 他 地 方 多 是 使 用 其 他 编码 ， 所 以 将 字符 串 编 
码 到 不 同 的 字符 集 的 操作 很 常见 。 对 于 Charset 类 的 encode() 和 decode() 方法 而 言 ， 
如 果 一 次 只 处 理 一 个 或 几 个 字符 ， 它 们 会 非常 慢 ， 务 必 完 整 缓存 一 些 数据 ， 再 进行 处 
理 ， 本 章 前 面 也 讨论 过 。 

网 络 编码 

在 编码 静态 字符 串 (来 自 JSP 文件 等 地 方 ) 时 ，Java EE 应 用 服务 器 往往 会 特殊 处 理 ， 
更 多 细节 可 参见 第 10 章 。 

字符 串 连 接 是 另 一 个 可 能 会 出 现 性 能 问题 的 地 方 。 考 虑 这 样 一 个 简单 的 字符 串 连 接 操作 : 

String answer = integerPart + "." + mantissa; 
这 行 代 码 实际 上 非常 高 效 ，javac 编译 器 的 语法 糖 会 将 其 转换 为 如 下 代码 : 
String answer = new StringBuilder(integerPart).append("."). 
append(mantissa).toString(); 
不 过 问题 来 了 ， 如 果 这 个 字符 串 是 逐步 构造 起 来 的 : 


String answer = integerPart; 
answer +="."; 
answer += mantissa; 


那么 这 段 代 码 就 会 被 翻译 为 ， 


String answer = new StringBuilder(integerPpart).toString(); 
answer = new StringBuilder(answer).append(".").toString(); 
answer = new StringBuilder(answer).append(mantissa).toString(); 


所 有 那些 临时 的 StringBuilder 对 象 和 中 间 的 String 对 象 都 很 低 效 。 永 远 不 要 使 用 连接 
来 构造 字符 串 ， 除 非 能 在 逻辑 意义 上 的 一 行 代码 内 完成 ， 也 不 要 在 循环 内 使 用 字符 串 
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连接 ， 除 非 连接 后 的 字符 串 不 会 用 于 下 一 次 循环 迭代。 对 于 其 他 情况 ， 应 该 总 是 使 用 
StringButtder， 以 获得 更 好 的 性 能 。 在 第 1 章 中 我 曾经 说 过 ， 某 种 情况 下 “过 早 的 优化 ” 
只 是 表示 要 “编写 良好 的 代码 ”。 这 就 是 最 好 的 例子 。 

快速 小 结 

1， 一行 的 字符 串 连 接 代码 性 能 很 不 错 。 

2， 对 于 多 行 的 连接 操作 ， 一 定 要 确保 使 用 StringButtder。 





12.7 日 志 


日 志 是 让 程序 员 爱 恨 交 织 的 事情 之 一 。 每 当 有 人 问 为 什么 某 个 程序 运行 这 么 糟 时 ， 我 首先 
要 做 的 就 是 拿 到 任何 可 用 的 日 志 ， 和 希望 在 应 用 生成 的 日 志 中 找到 线索 ， 以 了 解 应 用 的 状 
况 。 而 每 当 有 人 让 我 审查 工作 代码 的 性 能 时 ， 我 又 会 立即 建议 把 所 有 的 日 志 语 句 关 掉 。 


日 志 有 很 多 种 。GC 会 生成 自己 的 日 志 语 句 (参见 第 6 章 )。 日 志 可 以 定向 到 一 个 单独 的 文 
件 中 ， 其 大 小 可 以 由 JVM 管理 。 即 便 在 生产 代码 中 ，GC 日 志 (使 用 -XxX:+PrintGCDetails 
标志 开启 ) 的 开销 也 是 非常 低 的 ， 而 当 出 现 问题 时 ， 它 们 的 好 处 非常 大 ， 所 以 GC 日 志 应 
该 一 直 打 开 。 


Java EE 应 用 服务 器 会 生成 一 个 访问 日 志 ， 每 当 有 请 求 时 都 会 更 新 。 这 类 日 志 的 影响 通常 
比较 明显 : 不 管 在 应 用 服务 器 上 运行 的 是 何 种 测试 ， 关 闭 这 类 日 志 可 以 明显 改进 性 能 。 根 
据 我 的 经 验 ， 从 诊断 角度 看 ， 当 出 现 问题 时 这 些 日 志 的 帮助 不 是 很 大 。 不 过 在 业务 需求 方 
面 ， 这 类 日 志 往 往 非常 关键 ， 此 时 必须 开启 。 

很 多 应 用 服务 器 都 支持 Apache 的 mod_log_config 标准 ， 尽 管 它 并 非 一 个 Java EE 标准 。 
它 可 以 针对 每 个 请 求 精确 地 指定 想 要 记录 的 信息 (不 支持 mod_Log_config 语法 的 服务 器 通 
常 也 会 支持 某 种 形式 的 定制 )。 这 里 的 关键 是 ， 记 录 的 信息 应 该 尽 可 能 少 ， 同 时 仍 要 满足 
业务 需求 。 日 志 的 性 能 会 受 所 写 数据 量 的 影响 。 


特别 是 在 HITP 访问 日 志 中 (或 者 笼统 地 说 ， 在 任何 种 类 的 日 志 中 )， 记 录 下 所 有 的 数字 
信息 是 个 不 错 的 主意 : 记录 IP 地 址 而 不 是 主机 名 ， 记 录 时 间 惟 (比如 从 Unix 纪元 到 现在 
所 经 过 的 秒 数 ) 而 不 是 字符 串 数据 (比如 “Monday, June 3, 2013 17:23:00 -0600” ) ， 诸 如 此 
类 。 尽 量 减 少 需 要 花 时间 和 内 存 去 计算 的 任何 数据 转换 ， 以 便 使 日 志 对 系统 的 影响 将 至 最 
低 。 转 换 后 的 数据 总 是 可 以 通过 对 日 志 做 后 续 处 理 来 获得 。 


对 于 应 用 日 志 ， 需 要 记 住 3 个 基本 原则 。 第 一 ， 协 调 好 要 打 日 志 的 数据 和 所 选 级 别 
(Level) 之 间 的 关系 。JDK 中 有 7 个 标准 的 日 志 级 别 ， 而 且 Logger 实例 一 般 默 认 配 置 为 输 
出 其 中 的 3 个 级 别 〈INF0 及 更 高 级 别 )。 在 项 目 中 ， 这 往往 会 导致 混淆: INF0 级 别 听 上 去 
好 像 应 该 非常 常见 ， 而 且 应 该 提供 与 应 用 流程 相关 的 描述 (“现在 正在 处 理 A 任务 ”"，“ 现 
在 正在 做 B 任务 "， 等 等 )。 特 别 是 对 于 存在 大 量 线程 的 可 扩展 应 用 (包括 Java EE 应 用 服 
务 器 ) 而 言 ， 这 类 日 志 多 了 会 给 性 能 带 来 不 利 影响 (更 不 用 说 太 多 没什么 用 的 日 志 信 息 带 
来 的 风险 了 )。 要 学 会 使 用 更 低级 别 的 日 志 语 句 。 


类 似 地 ， 当 把 代码 签 入 到 组 库 中 时 ， 应 该 券 虑 的 是 项 目 使 用 者 的 需求 ， 而 不 是 我 们 作为 开 
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发 者 的 需求 。 在 将 自己 的 代码 集成 到 一 个 更 大 的 系统 中 之 后 ， 这 些 代码 运行 状况 如 何 呢 ? 
我 们 都 希望 获得 与 此 相关 的 大 量 积极 反馈 ， 另 外 还 会 运行 一 连 串 的 测试 。 但 如 果 消 息 对 最 
终 用 户 或 系统 管理 员 没 什么 意义 ， 那 默认 开启 这 些 日 志 就 没什么 帮助 。 它 们 的 “作用 ”不 
过 是 拖 慢 了 系统 (还 会 让 最 终 用 户 迷 惑 不 解 )。 


第 二 个 原则 是 使 用 细 粒 度 的 Logger 实例 。 对 每 个 类 的 Logger 实例 进行 配置 可 能 会 很 党 琐 ， 
但 这 么 做 是 值得 的 ， 因 为 能 够 更 好 地 控制 日 志和 输出。 在 一 个 较 小 的 模块 中 ， 让 一 组 类 共享 
一 个 Logger 实例 ， 是 个 不 错 的 折 中 办 法 。 要 记 住 的 关键 一 点 是 ， 如 果 生 产 环 境 变化 很 大 ， 
有 些 问题 (特别 是 那些 在 高 负载 情况 下 出 现 的 问题 ,或 者 是 其 他 与 性 能 有 关 的 问题 ) 很 难 
重 现 。 打 开 太 多 日 志 往 往 会 改变 环境 ， 导 致 原来 的 问题 不 再 复 现 。 


因此 ， 我 们 必须 能 够 做 到 仅 打 开 一 小 组 代码 的 日 志 (至 少 最 初 能 控制 一 小 组 FINE 级 别 的 
日 志 语 句 ， 然 后 是 控制 更 多 FINER 和 FINEST 级 别 的 )， 这 样 就 不 会 影响 代码 的 性 能 


在 这 两 个 原则 之 间 ， 应 该 能 够 支持 在 生产 环境 中 生成 信息 的 小 子 集 ， 前 提 是 不 影响 系统 性 
能 。 无 论 如 何 这 都 是 应 该 考虑 的 ， 原 因 在 于 : 如 果 日 志 会 让 生产 系统 变 慢 ， 甚 管理 员 很 可 
能 不 会 开启 日 志 ; 在 这 种 情况 下 ， 如 果 系 统 确实 变 慢 了 ， 重 现 问题 的 可 能 性 也 小 了 。 

第 三 个 原则 是 ， 在 向 代码 引入 日 志 时 ， 应 该 注意 ， 很 容易 编写 出 带 来 意 想 不 到 的 副作用 
的 日 志 代 码 ， 即 使 这 个 日 志 并 没有 开启 。 这 是 可 以 说 明 “ 过 早 的 优化 ”很 不 错 的 又 一 种 
情况 : 如 第 1 章 的 例子 所 示 ， 每 当 要 打 日 志 的 信息 包含 方法 调用 、 字 符 串 连接 或 者 其 他 
任何 形式 的 资源 分 配 (比如 为 MessageFormat 参数 分 配 一 个 0bject 数组 ) 时 ， 记 得 使 用 
isLoggable() 方法 。 



















































































快速 小 结 
1. 为 帮助 用 户 找 出 问题 ， 代 码 应 该 包含 大 量 日 志 ， 但 是 这 些 日 志 默认 都 应 
该 是 关闭 的 。 


2， 如 果 Logger 实例 的 参数 需要 调用 方法 或 者 分 配对 象 ， 那 么 在 调用 该 实例 
之 前 ,不 要 忘 了 测试 日 志 级 别 。 


12.8 ” Java 集合 类 API 


Java 的 集合 类 API 有 很 大 的 选择 余地 ;Java 7 至 少 提 供 了 58 个 不 同 的 集合 类 。 在 编写 应 
用 时 ， 选 择 恰当 的 集合 类 ， 以 及 恰当 地 使 用 集合 类 ， 是 一 个 重要 的 性 能 考量 。 
使 用 集合 类 的 第 一 条 规则 是 ， 选 择 适 合 应 用 的 算法 需求 的 集合 类 。 该 建议 并 不 是 特定 于 
Java 的 ， 这 实际 上 是 数据 结构 入 门 课程 就 会 介绍 的 。LinkedList 不 适合 做 搜索 ， 如 果 需 要 
访问 一 段 随机 的 数据 ， 应 该 将 集合 保存 到 HashMap 中 。 如 果 数 据 需 要 有 序 排列 ， 则 应 使 用 
TreeMap， 而 不 是 尝试 在 应 用 中 做 排序 。 如 果 会 用 索引 访问 数据 ， 则 使 用 ArrayList; 但 如 
果 会 频繁 地 向 该 数组 中 间 插 入 数据 ， 则 不 要 使 用 它 ， 诸 如 此 类 。 根 据 算 法 选择 要 使 用 哪个 
集合 类 ， 这 非常 重要 ， 但 是 在 Java 中 做 选择 和 在 其 他 编程 语言 中 做 选择 并 没有 多 少 区 别 。 
然而 在 使 用 Java 的 集合 类 时 ， 还 有 一 些 特 殊 的 地 方 需要 考虑 。 
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12.8.1 同步 还 是 非 同步 
默认 情况 下 ， 几 乎 所 有 的 Java 集合 类 都 是 非 同 步 的 (主要 的 例外 是 Hashtable、Vector 及 
与 其 相关 的 类 )。 

















同步 的 集合 类 
如 果 想 了 解 为 什么 Vector 和 Hashtable (及 相关 类 ) 是 同步 的 ， 就 得 先 来 看 一 点 历史 。 


在 Java 早期 ， 它 们 是 JDK 中 仅 有 的 集合 类 。 当 时 (在 Java 1.2 之 前) 还 没有 集合 类 框 
架 (Collections Framework) 的 正式 定义 ; 它们 只 是 最 初 的 Java 平 台 提 供 的 几 个 有 用 
的 类 。 


在 Java 发 布 第 一 个 版 本 时 ， 大 部 分 开发 者 对 多 线程 知之 其 少 ， 而 Java 试图 让 开发 者 
能 够 更 容易 地 避免 在 多 线程 环境 中 编程 的 某 些 陷阱 。 因 此 ， 这 些 类 就 设计 成 了 线程 安 
全 的 。 

遗憾 的 是 ， 在 早期 的 Java 版 本 中 ， 同 步 一 一 其 至 是 不 存在 竞争 时 的 同步 一 一 是 个 很 大 
的 性 能 问题 ， 所 以 当 第 一 个 重大 修订 版 本 发 布 时 ， 集 合 类 框架 采用 了 相反 的 做 法 : 所 
有 新 的 集合 类 默认 都 是 非 同步 的 。 即 使 从 那 时 开始 同步 性 能 已 经 有 了 显著 提高 ， 但 仍 
然 不 是 没有 成 本 的 ; 能 够 选择 非 同 步 的 集合 类 ， 可 以 帮助 大 家 编写 更 快 的 程序 (偶尔 
会 出 现 因 并 发 修改 某 个 非 同步 的 集合 而 导致 的 bug)。 











第 9 章 有 一 个 微 基准 测试 ， 比 较 了 基于 CAS 的 保护 和 传统 的 同步 。 这 个 例子 在 多 线程 的 
情况 下 不 太 实用 ， 但 如 果 问 题 中 的 数据 只 会 由 一 个 线程 访问 ， 又 会 怎么 样 呢 ? 如 果 不 使 用 
任何 同步 ， 效 果 又 会 如 何 ? 表 12-7 列 出 了 比较 情况 。 因 为 这 里 没有 试图 考虑 竞争 ， 所 以 在 
这 样 一 种 情况 下 ， 这 里 的 微 基准 测试 是 有 效 的 : 没有 竞争 ， 手 涉 上 的 问题 是 研究 同步 访问 
资源 有 些 多 余 时 的 损失 。 

表 12-7: 同步 访问 和 非 同步 访问 的 性 能 




















模式 总 时 间 ( 秒 ) 平均 到 每 次 操作 的 时 间 ( 纳 秒 ) 
CAS 操作 6.6 13 
同步 方法 11.8 23 
非 同步 方法 3.9 7.8 


从 第 2 列 可 以 很 明显 地 看 出 ， 与 简单 的 非 同步 访问 相 比 ， 如 果 使 用 了 任何 一 种 数据 保护 技 
术 ， 都 会 有 比较 小 的 性 能 损失 。 然 而 ， 别 忘 了 这 是 执行 了 5 亿 次 操作 的 一 个 微 基准 测试 ， 
所 以 平均 到 每 次 操作 ， 差 别 就 只 在 15 纳 秒 的 量 级 上 。 如 果 相 关 操 作 在 目标 应 用 中 执行 得 
足够 频繁 ， 性 能 损失 就 会 有 点 明显 。 在 大 部 分 情况 下 ， 这 种 差别 会 被 应 用 中 其 他 更 为 低 效 
的 地 方 抵消 掉 。 还 要 记 住 ， 这 里 的 绝对 数字 完全 是 由 测试 所 运行 的 目标 机 器 决定 的 〈 我 的 
是 搭载 了 4 核 AMD Athlon 处 理 器 的 家 用 机 ) ; 要 获得 更 为 真实 的 测量 结果 ， 测 试 需要 在 
与 目标 环境 相同 的 硬件 上 运行 。 


那么 ， 如 果 要 在 同步 的 Vector 和 非 同 步 的 ArrayList 之 间 做 出 选择 ， 该 选择 哪个 呢 ? 访 
问 ArrayList 会 稍微 快 一 些 ， 这 与 访问 这 个 列表 的 频繁 程度 有 关 ， 性 能 差异 是 可 以 测量 的 。 
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(正如 第 9 章 所 指出 的 ， 在 某 些 硬 件 平 台 上 ， 过 多 调用 同步 方法 对 性 能 影响 很 大 。) 


另 一 方面 ， 这 里 假设 代码 不 会 被 多 个 线程 访问 。 今 天 可 能 确实 如 此 ， 那 明天 会 怎么 样 呢 ? 
如 果 情 况 可 能 会 变 ， 那 更 好 的 办 法 是 现在 就 使 用 同步 的 集合 ， 并 减轻 它 所 带 来 的 性 能 影 
响 。 这 是 一 个 设计 选择 ,为 使 代码 经 受 住 时 间 的 考验 而 将 其 设计 为 线程 安全 的 ， 在 这 上 面 
投入 时 间 和 精力 是 不 是 值得 ， 取 决 于 开发 应 用 时 的 情况 。 


如 果 要 在 非 同步 集合 和 使 用 了 CAS 法 则 的 集合 之 间 做 出 选择 (比如 在 HashMap 和 
ConcurrentHashMap 之 间 ) ， 它 们 的 性 能 差别 会 微乎其微 。 当 基于 CAS 的 类 用 于 不 存在 竞 
争 的 环境 中 时 ， 几 乎 没有 什么 开销 (继续 阅读 ， 后 面 会 讨论 特定 的 hashmap 在 内 存 使 用 方 
而 的 差别 ) 。 


12.8.2” 设 定 集合 的 大 小 
集合 类 的 用 途 是 保存 任意 数量 的 数据 元 素 ， 并 随 着 集合 中 新 条 目的 添加 ， 在 必要 时 进行 扩 
展 。 性 能 方面 有 两 点 需要 考虑 。 


尽管 Java 中 的 集合 类 提供 的 数据 类 型 非常 丰富 ， 但 是 在 基本 层面 上 上， 这些 类 都 必须 仅 使 用 
Java 基本 的 数据 类 型 来 保存 其 数据 : 数值 〈 整 型 、 双 精度 浮 点 型 等 )、 对 象 引用 和 这 些 类 
型 的 数组 。 因 此 ，ArrayList 中 包含 一 个 真正 的 数组 : 


private transient Object[] elementData; 


随 着 在 ArrayList 中 添加 和 移 除 条 目 ， 这 些 条 目 会 保存 在 elementData 数组 内 的 期 望 位 置 
(可 能 会 导致 数组 中 的 其 他 条 目 变 更 位 置 )。 类 似 地 ，HashMap 中 包含 着 一 个 由 内 部 数据 类 
型 HashMap$Entry 组 成 的 数组 ，HashMap 会 将 每 个 键 - 值 对 映射 到 这 个 数组 中 ， 具 体位 置 根 
据 键 的 哈 希 码 值 来 确定 。 


并 非 所 有 的 集合 类 都 使 用 数组 保存 其 元 素 ， 比 如 LinkedList， 它 以 内 部 定义 的 Node 类 保存 
每 个 数据 元 素 。 但 是 使 用 数组 保存 元 素 的 集合 类 都 会 涉及 一 个 问题 ， 就 是 要 考虑 数组 的 大 
小 。 如 何 确定 某 个 特定 的 类 是 不 是 属于 这 个 范畴 呢 ? 可 以 看 看 它 的 构造 国 数 : 如果 它 有 一 
个 构造 图 数 支持 指定 该 集合 的 初始 大 小 ， 那 它 内 部 就 使 用 了 某 个 数组 来 存储 元 素 。 

对 于 这 样 的 集合 类 ， 精 确 地 指定 初始 大 小 非常 重要 。 以 ArrayList 作为 一 个 简单 的 例子 : 
elementData 数组 默认 的 初始 大 小 为 10。 当 向 某 个 ArrayList 实例 中 插入 第 11 个 元 素 时 ， 
它 就 会 扩展 elementData 数组 。 这 意味 着 分 配 一 个 新 数组 ， 将 原来 的 内 容 复 制 到 这 个 数组 
中 ， 然 后 添加 新 元 素 。 可 以 说 HashMap 使 用 的 数据 结构 和 算法 更 复杂 一 些 ， 但 基本 原理 是 
一 样 的 : 在 某 一 时 刻 ， 必 须 重新 调整 内 部 数据 结构 的 大 小 。 


ArrayList 类 调整 数组 大 小 的 方法 是 ， 在 现 有 基础 上 增加 约 一 半 。 所 以 elementData 数组 的 
大 小 最 初 是 10， 然 后 是 15，22，33， 以 此 类 推 。 不 管 使 用 何 种 算法 调整 数组 大 小 (参见 
后 面 方 框 内 的 文字 ) ， 都 会 导致 一 些 内 存 被 浪费 〈 这 反 过 来 又 会 影响 应 用 花 在 执行 GC 上 的 
时 间 )。 此 外 ， 每 当 数组 必须 调整 大 小 时 ， 都 伴随 一 个 成 本 很 高 的 数组 复制 操作 ， 将 老 数 
组 中 的 内 容 转 移 到 新 数组 中 。 

要 减少 这 些 性 能 损失 ， 必 须 尽 可 能 准确 地 估计 一 下 集合 最 终 的 大 小 ， 并 用 这 个 值 来 构建 


集合 。 
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非 集合 类 中 的 数据 扩展 
很 多 非 集合 类 也 会 在 内 部 数组 中 保存 大 量 数据 。 比 如 ，ByteArrayOutputStream 类 \ 必 
须 把 写 入 到 该 流 中 的 所 有 数据 保存 到 一 个 内 部 缓冲 区 中 ; 类 似 地 ，StringBuilder 和 
StringBuffer 类 也 必须 将 所 有 字符 保存 到 一 个 内 部 的 字符 数组 中 。 
这 些 类 大 多 会 使 用 同样 的 算法 调整 内 部 数组 的 大 小 : 需要 调整 时 就 加 倍 。 这 意味 着 ， 
平均 而 言 ， 内 部 的 数组 要 比 当前 包含 的 数据 多 25%。 
这 里 的 性 能 考量 是 相似 的 : 使 用 的 内 存量 多 于 ArrayList 这 个 例子 ， 需 要 复制 数据 的 
次 数 要 少 一 些 ， 但 原理 是 一 样 的 。 在 构建 某 个 对 象 时 ， 如 果 可 以 设置 其 大 小 ， 可 以 评 
估 一 下 这 个 对 象 最 终 会 保存 多 少数 据 ， 然 后 选择 接受 大 小 参数 的 那个 构造 函数 。 











12.8.3 ”集合 与 内 存 使 用 效率 

我 们 刚 看 了 一 个 集合 的 内 存 使 用 效率 没有 达到 最 佳 的 例子 : 在 用 于 保存 集合 中 的 元 素 的 底 
层 存储 中 ， 往 往 会 浪费 一 些 内 存 。 

对 于 元 素 比 较 稀 玻 的 集合 (只 有 一 两 个 元 素 ) ， 这 存在 较 大 的 问题 。 如 果 这 样 的 集合 用 得 
非常 多 ， 则 会 浪费 大 量 内 存 。 解 决 方案 之 一 就 是 在 创建 集合 时 设 定 其 大 小 。 另 一 种 方案 
是 ， 考 虑 一 下 这 种 情况 是 不 是 真 的 需要 集合 。 

大 部 分 开发 者 被 问 及 如 何 快速 地 排序 任意 一 个 数组 时 ， 答 案 都 会 是 快速 排序 (quicksort) 。 
而 好 的 性 能 工程 师 希 望 了 解数 组 的 大 小 ， 如 果 数 组 足够 小 ， 那 最 快 的 方式 是 使 用 播 入 排 
序 (insertion sort)。( 对 于 较 小 的 数组 来 说 ， 基 于 快速 排序 的 算法 通常 会 使 用 插入 排序 ， 就 
Java 而 言 ，Arrays.sort() 方法 的 实现 就 假定 ， 少 于 47 个 元 素 的 数组 用 插入 排序 比 用 快速 
排序 更 快 。) 数组 大 小 至 关 重 要 。 









































JDK 7u40 中 集合 类 内 存 大 小 

很 多 应 用 中 经 常 出 现 因 集 合 类 使 用 不 当 而 导致 的 问题 ， 所 以 JDK 7u40 向 ArrayList 和 
HashMap 的 实现 中 引入 了 一 个 新 的 优化 : 默认 情况 下 (比如 在 调用 构造 函数 时 没有 使 
用 大 小 参数 ) ， 这 些 类 不 再 为 数据 分 配 任何 底层 存储 ， 而 是 在 向 该 集合 中 插入 第 一 个 元 
素 时 才 分 配 。 

这 就 是 第 7 章 所 探讨 的 延迟 初始 化 技术 的 一 个 例子 ， 在 测试 一 些 常见 的 应 用 时 ， 因 为 
减少 了 对 GC 的 需求 ， 所 以 性 能 有 所 改进 。 这 些 应 用 中 有 很 多 从 来 没 用 过 的 集合 ; 所 
以 延迟 分 配 其 底层 存储 在 性 能 方面 有 优势 。 因 为 每 次 访问 时 本 来 就 要 检查 底层 存储 的 
大 小 ， 所 以 检查 底层 存储 是 不 是 已 经 分 配 ， 并 没有 性 能 损失 (不 过 创建 最 初 的 底层 存 
储 所 需要 的 时 间 从 创建 对 象 时 变 成 了 向 对 象 中 插入 第 一 个 数据 时 )。 














类 似 地 ， 在 基于 某 个 键 值 查找 数据 时 ，HashMap 是 最 快 的 ， 但 如 果 只 有 一 个 键 ， 与 使 用 一 
个 简单 的 对 象 引用 相 比 ， 使 用 HashMap 就 是 大 材 小 用 了 。 即 使 有 几 个 键 ， 维 护 几 个 对 象 引 
用 所 需要 的 内 存 也 比 一 个 完整 的 HashMap 对 象 少 ， 而 且 这 样 对 GC 也 有 积极 的 影响 。 
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除了 以 上 这 些 ， 关 于 集合 类 的 内 存 使 用 还 有 很 重要 的 一 点 区 别 需要 了 解 ， 那 就 是 Hashwap 
对 象 和 ConcurrentHashMap 对 象 大 小 的 差别 。 在 Java 7 之 前 ， 一 个 空 的 或 者 元 素 和 稀疏 的 
ConcurrentHashMap 对 象 非常 大 : 超过 1 KB (即便 向 其 构造 函数 传 了 一 个 很 小 的 大 小 )。 在 
Java 7 中 ， 其 大 小 只 有 208 字 节 〈 与 之 相 比 ， 构 造 时 设 有 指定 大 小 的 空 HashMap 占 128 字 
节 ， 指 定 大 小 为 1 的 HashMap 占 72 字 节 )。 


在 存在 很 多 小 型 Map 的 应 用 中 ， 大 小 的 差别 仍然 非常 重要 ， 但 是 Java 7 中 引入 的 优化 使 
得 这 种 差别 不 那么 显著 了 。 为 提高 性 能 ， 在 内 存 非常 重要 且 存 在 大 量 Map 的 应 用 中 ， 有 人 
(包括 我 ) 建议 避免 使 用 ConcurrentHashMap 类 。 这 些 建议 的 核心 其 实 是 两 个 因素 之 间 的 取 
舍 : 是 要 更 快 地 访问 Map (如 果 存 在 竞争 )， 还 是 要 小 心 更 大 的 Map 所 引发 的 对 垃圾 收集 
器 的 压力 。 这 个 取舍 如 今 仍 然 存 在 ， 但 重心 已 更 多 地 偏向 了 使 用 ConcurrentHashMap。 


快速 小 结 

1. 仔细 考虑 如 何 访 问 集合 ， 并 为 其 选择 恰当 的 同步 类 型 。 不 过 ， 在 不 存在 
竞争 的 条 件 下 访问 使 用 了 内 存 保护 的 集合 (特别 是 使 用 了 基于 CAS 的 保 
护 的 集合 )， 性 能 损失 会 极 小 ， 有 了 时候， 保证 安全 性 才 是 上 策 。 

2. 设 定 集合 的 大 小 对 性 能 影响 很 大 : 集合 太 大 ， 会 使 得 垃圾 收集 器 变 慢 ， 
集合 太 小 ， 又 会 导致 大 量 的 大 小 调整 与 复制 。 






































12.9 ” AggressiveOpts 标 志 


Aggressive0pts 标志 (默认 为 false) 会 影响 一 些 基本 Java 操作 的 行为 。 其 目标 是 试验 性 
地 引入 一 些 优化 ， 随 着 时 间 的 推移 ， 原 来 由 这 个 标志 启用 的 优化 有 望 成 为 JVM 的 默认 设 
置 。 很 多 Java 6 中 的 这 类 优化 在 Java 7u4 中 都 成 了 默认 的 设置 。 在 每 个 JDK 版 本 中 ， 都 应 
该 重新 测试 该 标志 ， 看 看 它 对 应 用 是 否 还 有 积极 的 影响 。 


12.9.1 替代 实现 


启用 Aggressive0pts 标志 的 主要 影响 是 ， 它 会 为 JD 区 中 的 一 些 基 本 的 类 引入 不 同 的 替代 
实现 : 尤其 是 java.math 包 中 的 BigDecimal、BigInteger 和 MutableBigDecimal 类 ;， java. 
text 中 的 DecimalFormat、DigitalList 和 NumberFormat 类 ; java.util 包 中 的 HashMap、 
LinkedHashMap 和 TreeMap 类 。 


这 些 类 在 功能 上 与 它们 所 替代 的 标准 JDK 中 的 类 是 一 致 的 ， 但 是 采用 了 更 高 效 的 实现 。 在 
Java 8 中 ， 这 些 替 代 实 现 已 经 去 掉 ， 或 者 是 合并 到 了 基本 的 JDK 类 中 ， 或 者 是 以 其 他 方式 
改进 了 基本 的 JDK 类 。 


之 所 以 要 通过 设置 Aggressive0pts 标志 才能 启用 这 些 类 (在 Java 7 中 ), 原因 在 于 它们 的 
行为 可 能 会 在 应 用 代码 中 引发 一 些微 妙 的 bug。 比 如 ，HashMap 类 的 激进 实现 所 生成 的 迭代 
器 ， 甚 返回 键 值 的 顺序 与 标准 实现 相 比 会 有 所 不 同 。 应 用 首先 绝 不 能 依赖 该 选 代 器 返回 元 
素 的 顺序 ， 但 现实 中 很 多 应 用 都 会 犯 这 个 错误 。 出 于 兼容 性 考虑 ， 这 种 更 高 效 的 实现 并 没 
有 履 盖 掉 原 来 的 实现 ， 所 以 必须 通过 设置 Aggressive0pts 标志 来 获得 更 好 的 性 能 。 
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因为 Java 8 去 掉 了 这 些 类 ， 所 以 在 升级 时 可 能 会 损害 到 bug 兼容 性 一 一 这 又 一 次 暗示 了 从 
一 开始 就 写 好 代码 的 重要 性 。 


12.9.2 ”其 他 标志 
开启 Aggressive0pts 标志 会 影响 其 他 一 些 较为 次 要 的 JVM 调 优 。 


设置 Aggressive0pts 标志 会 开启 Autofill 标志 ( 它 在 JDK 7 到 7u4 这 几 个 版 本 中 默认 为 
false)。 这 个 标志 开启 后 ， 编 译 器 会 对 循环 进行 更 好 的 优化 。 类 似 地 ，AggressiveOpts 标 
志 还 会 开启 DoEscapeAnalysis 标志 (在 JDK 7u4 及 后 续 版 本 中 ， 这 个 标志 也 成 了 默认 的 )。 


AutoBoxCacheMax 标志 (默认 为 128) 被 设置 为 20 000， 支 持 对 更 多 值 进行 自动 装 箱 ， 这 会 
轻微 改进 特定 应 用 的 性 能 (代价 是 使 用 的 内 存 也 会 稍微 增多 )。BiasedLockingStartupDelay 
会 从 默认 的 2000 减 到 500， 这 意味 着 偏向 锁 会 在 应 用 开始 执行 后 更 短 的 时 间 内 启用 。 


最 后 ， 该 标志 还 会 开启 0ptimizeStringConcat 标志 ， 人 允许 JVM 优化 StringBuilder 对 象 的 
使 用 ， 具 体 而 言 ， 当 编写 下 面 这 样 的 代码 时 ，javac 编译 器 会 创建 StringBuilder 对 象 ; 


String s = obj1 + ":" + obj2 + ":" + obj3; 


javac 编译 器 会 将 这 行 代 码 翻译 为 一 个 StringBuilder 对 象 上 的 一 系列 append() 调用 。 当 
OptimizeStringConcat 标志 开启 时 ，JVM 即时 编译 器 (JIT) 会 把 StringBuilder 对 象 的 创 
建 优 化 掉 。 在 JDKEK 7 到 7u4 的 版 本 中 ，0ptimizeStringConcat 标志 默认 为 false， 而 在 开 
局 Aggressive0pts 标志 后 ， 其 默认 值 变 成 了 true。 


快速 小 结 

1. Aggressive0pts 标志 会 在 一 些 基 本 的 类 中 开局 某 些 优化 。 大 多 数 情 况 下 ， 
这 些 类 要 快 于 它们 所 替代 的 类 ， 不 过 可 能 有 意 想 不 到 的 副作用 。 

2，Java 8 中 去 掉 了 这 些 类 。 























12.10 ” ”Lambda 表达 式 和 匿名 类 


对 很 多 开发 者 而 言 ，Java 8 最 激动 人 心 的 特性 就 是 加 入 了 Lambda 表达 式 。 不 可 否认 ， 
Lambda 对 Java 开发 者 的 开发 效率 有 着 非常 积极 的 影响 ， 尽 管 收益 难以 量化 ， 但 是 我 们 可 
以 使 用 Lambda 表达 式 来 考查 代码 的 性 能 。 


关于 Lambda 表达 式 的 性 能 ， 一 个 最 基本 的 问题 是 ， 它 们 与 其 所 对 应 的 替代 物 匿名 类 相 比 
如 何 。 其 实 几 乎 没什么 差别 。 关 于 如 何 使 用 Lambda 表达 式 ， 常 见 的 例子 一 般 是 从 创建 
匿名 内 部 类 的 代码 入 手 (不 过 这 类 例子 往往 使 用 Streamn， 而 不 是 像 下 面 这样 使 用 友 代 器 ， 
12.11 节 会 介绍 Stream 类 ) : 




















private volatile int sum; 


public interface IntegerInterface { 
int getInt(); 


} 
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public void calc() { 
IntegerInterface al = new IntegerInterface() { 
public int getInt() { 
return 1; 
} 
}; 
IntegerInterface a2 = new IntegerInterface() { 
public int getInt() { 
return 2; 
} 
}; 
IntegerInterface a3 = new IntegerInterface() { 
public int getInt() { 
return 3; 
} 
}; 
sum = al.get() + a2.get() + a3.get(); 
} 


可 以 将 其 与 下 面 使 用 了 Lambda 表达 式 的 代码 对 比 一 下 : 


public void calc() { 
IntegerInterface a3 -> { return 3 }; 
IntegerInterface a2 -> { return 2 }; 
IntegerInterface al -> { return 1 }; 
sum = a3.get() + a2.get() + al.get(); 
} 


这 里 Lambda 表达 式 或 匿名 类 的 代码 体 至 关 重 要 : 如 果 其 中 执行 了 任何 较为 重型 的 操作 ， 
那 花 在 这 一 操作 上 的 时 间 会 把 Lambda 表达 式 或 匿名 类 实现 上 的 细微 差距 掩盖 掉 。 然 而 ， 
即便 在 这 种 最 简单 的 情况 下 ， 执 行 该 操作 的 时 间 也 基本 一 样 ， 如 表 12-8 所 示 。 


表 12-8: 使 用 Lambda 表 达 式 和 匿名 类 执行 catc() 方 法 的 时 间 


























实现 方式 所 用 时 间 ( 微 秒 ) 
匿名 类 87.2 
Lambda 表达 式 87.9 








数字 看 上 去 比较 正式 ， 让 人 印象 深 刻 ， 但 除了 说 这 两 种 实现 性 能 基本 相同 ， 我 们 也 得 
不 出 其 他 结论 。 确 实 如 此 ， 因 为 测试 中 存在 随机 波动 ， 再 加 上 这 些 调用 都 是 用 Systenm. 
nanoTime() 测量 的 。 在 这 个 层次 上 ， 这 样 计时 还 没有 准确 到 足以 让 人 信服 ;总 而 言 之， 我 
们 所 知道 的 就 是 它们 的 性 能 相同 。 

在 这 个 例子 中 的 典型 用 法 中 ， 有 一 点 比较 有 趣 ， 即 每 当 方 法 被 调用 时 ， 使 用 匿名 类 的 代码 
都 会 创建 一 个 新 对 象 。 如 果 这 个 方法 调用 次 数 非常 多 (当然 必须 在 某 个 基准 测试 中 测量 其 
性 能 )， 会 有 很 多 这 个 匿名 类 的 对 象 被 快速 创建 并 丢弃 。 如 第 5 章 所 介绍 ， 这 种 用 法 对 性 
能 儿 乎 没有 什么 影响 。 分 配对 象 ( 以 及 更 重要 的 初始 化 操作 ) 的 成 本 非常 低 ， 而 且 因为 它 
们 很 快 就 会 被 丢弃 ， 实 际 上 不 会 拖 慢 垃圾 收集 器 。 

尽管 如 此 ， 我 们 总 是 可 以 构造 一 些 用 例 ， 来 说 明 分 配对 性 能 影响 很 大， 以 及 最 好 重用 对 象 : 
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private IntegerInterface al = new IntegerInterface() { 
public int getInt() { 
return 1; 


} 


eas 其 他 接口 类 似 …… 
public void calc() { 
return al.get() + a2.get() + a3.get(); 


} 








} 


而 Lambda 表达 式 的 这 种 典型 用 法 ， 通 常 不 会 在 每 次 循环 旭 代 时 创建 一 个 新 对 象 ， 所 以 在 
个 别 案例 下 ,使 用 Lambda 表达 式 的 性 能 会 好 一 些 。 尽 管 如 此 ， 即 便 要 构造 性 能 差异 有 影 
响 的 微 基准 测试 ， 都 是 非常 困难 的 。 


Lambda 表 达 式 与 匿名 类 加 载 


有 种 极端 情况 ， 即 在 启动 和 类 加 载 时 ， 两 种 实现 的 性 能 差别 很 明显 。 人 们 很 容易 查看 
Lambda 表达 式 的 代码 ， 并 断定 它 不 过 是 语法 糖 ， 底 层 还 是 创建 匿名 类 (特别 是 从 长 远 来 
看 ， 两 者 的 性 能 一 样 )。 但 现在 的 工作 方式 并 不 是 这 样 的 。 在 JDK 8 中 ，Lambda 表达 式 的 
代码 会 创建 一 个 静态 方法 ， 这 个 方法 通过 一 个 特殊 的 辅助 类 来 调用 。 而 匿名 类 是 一 个 真正 
的 Java 类 ， 有 单独 的 class 文件 ， 并 通过 类 加 载 器 加 载 。 


如 本 章 前 面 所 介绍 的 ， 类 加 载 的 性 能 可 能 很 重要 ， 特 别 是 在 classpath 很 长 的 情况 下 。 如 果 
这 个 例子 就 是 在 这 样 的 情况 下 运行 一 一 calc() 方法 每 次 都 在 一 个 新 的 类 加 载 器 中 执行 ， 那 
匿名 类 实现 就 处 于 劣势 了 。 表 12-9 列 出 了 这 种 情况 下 的 差别 。 


表 12-9: 在 一 个 新 的 类 加 载 器 中 执行 catc() 方 法 的 时 间 







































































实现 方式 所 用 时 间 ( 微 秒 ) 
匿名 类 267 
Lambda 表达 式 . 181 








关于 这 些 数字 ， 有 一 点 要 提 一 下 : 它们 都 是 在 经 过 一 段 适 当 的 热身 周期 (以 开启 编译 ) 之 
后 再 测量 的 。 但 是 在 热身 阶段 会 发 生 另 一 件 事 : class 文件 第 一 次 被 从 磁盘 读 取 出 来 。 操 
作 系 统 会 把 这 些 文件 保存 在 内 存 (操作 系统 的 文件 缓冲 区 ) 中 。 所 以 代码 第 一 次 执行 需要 
的 时 间 比 较 长 ， 因 为 要 通过 读 文件 的 系统 调用 把 文件 从 磁盘 中 真正 地 加 载 进来 。 随 后 的 调 
用 会 快 很 多 : 尽管 仍然 需要 通过 系统 调用 读 文 件 ， 但 因为 这 些 文件 已 经 在 操作 系统 的 内 存 
中 ， 所 以 数据 可 以 快速 返回 。 因 此 ， 匿 名 类 实现 的 性 能 可 能 要 比 想 象 中 好 ， 因 为 它 并 没有 
真正 地 从 磁盘 读 取 class 文件 。 


快速 小 结 

1. 如 果 要 在 Lambda 表达 式 和 匿名 类 之 间 做 出 选择 ， 则 应 该 从 方便 编程 的 角 
度 出 发 ， 因 为 性 能 上 没什么 差别 。 

2. Lambda 表达 式 并 没有 实现 为 类 ， 所 以 有 个 例外 情况 ， 即 当 类 加 载 行为 对 
性 能 影响 很 大 时 ，Lambda 表达 式 略 胜 一 筹 。 
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N aAb 
12.11 流 和 过 滤器 的 性 能 
新 的 Strean 设施 是 Java 8 的 另 一 个 关键 特性 ， 而 且 经 常 与 Lambda 表达 式 配 合 使 用 。 在 性 
能 方面 ， 流 有 一 个 很 重要 的 特性 ， 即 它们 可 以 自动 并 行 化 代码 。 关 于 并 行 流 的 信息 可 参见 
第 9 章 ， 本 节 将 探讨 流 和 过 滤器 的 一 般 性 能 特性 。 





延迟 遍历 (Lazy Traversal) 
Strean 的 第 一 个 性 能 优势 是 它们 被 实现 为 了 延迟 的 数据 结构 。 举 个 例子 ， 有 一 组 股票 代 
码 ， 我 们 想 从 其 中 找到 第 一 个 不 含 字 母 A 的 代码 。 通 过 流 实现 该 功能 的 代码 看 上 去 就 像 下 
而 这 样 ; 
public String findSymbol(ArrayList<String> al) { 
Optional<String> t = al.stream(). 














filter(symbol -> symbol.charAt(0) != 'A') 

filter(symbol -> symbol.charAt(1) != 'A') 

filter(symbol -> symbol.charAt(2) != 'A') 

filter(symbol -> symbol.charAt(3) != 'A') 
findFirst(); 


return t.get(); 


} 
很 明显 ， 用 一 个 过 滤器 实现 会 更 好 ， 不 过 我 们 还 是 稍 后 讨论 。 现 在 先 思考 一 下 ， 对 例子 中 
的 这 个 流 而 言 ， 实 现 为 延迟 数据 结构 有 何 意 义 ? 每 个 filter() 方法 都 会 返回 一 个 新 流 ， 所 
以 这 里 实际 上 有 4 个 逻辑 流 。 
其 实 除 了 设置 一 系列 指针 ，filter() 方法 什么 都 没 做 。 其 作用 是 ， 当 在 这 个 流 上 调用 
findfirst() 方法 时 ， 不 会 执行 任何 的 数据 处 理 ， 也 不 会 拿 数据 去 跟 字符 A 作 比 较 。 


相反 ，findfirst() 会 向 前 面 的 流 (从 第 4 个 过 滤器 返回 的 那个 ) 要 一 个 元 素 。 而 那个 流 
还 没有 元 素 ， 于 是 又 向 后 调用 由 第 3 个 过 滤器 生成 的 流 ， 以 此 类 推 。 第 1 个 过 滤器 将 从 
ArrayList (从 技术 上 讲 ， 就 是 从 原始 的 流 中 ) 抓 到 第 一 个 元 素 ， 并 测试 它 的 第 一 个 字符 
是 否 不 为 A。 如 果 确 实 不 是 ， 它 会 完成 回调 ， 并 将 该 股票 代码 向 后 返回 ， 否则 ， 它 会 继 
续 迭 代数 组 ， 直 到 找到 一 个 匹配 的 股票 代码 (或 者 找 遍 整个 数组 )。 第 2 个 过 滤器 行为 类 
似 一 一 当 对 第 1 个 过 滤器 的 回调 返回 时 ， 它 会 测试 第 二 个 字符 是 否 不 为 A。 如 果 确 实 不 
是 ， 它 会 完成 回调 ， 并 将 该 股票 代码 向 后 传递 ,否则 ， 调 用 第 1 个 过 滤器 获得 下 一 个 股票 
代码 。 

这 么 多 回调 听 上 去 效率 很 低 ， 那 就 萎 虑 一 个 禁 代 方案 。 尽 早 处 理 流 的 算法 类 似 这 样 : 


private <T> ArrayList<T> calcArray(ArrayLisr<T> src, Predicate<T> p) { 
ArrayList<T> dst = new ArrayList<>(); 
for (Ts : src) { 
if (p.test(s)) 
dst.add(s); 




























































































return dst; 
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private static Long calcEager(ArrayList<String> al) { 
Long then = System.currentTimeMillis(); 


ArrayList<String> a2 = calcArray(al, (String s) -> s.charAt(0) != 'A'); 
ArrayList<String> a3 = calcArray(a2, (String s) -> s.charAt(1) != 'A'); 
ArrayList<String> a4 = calcArray(a3, (String s) -> s.charAt(2) != 'A'); 
ArrayList<String> a5 = calcArray(a4, (String s) -> s.charAt(3) != 'A'); 


answer = a5.get(0); 
long now = System.currentTimeMillis(); 
return now - then; 


} 


与 Java 实际 采用 的 延迟 实现 相 比 ， 这 一 替代 方案 效率 要 差 些 ， 原 因 有 二 。 第 一 ， 它 需要 
创建 大 量 临 时 的 ArrayList 实例 。 第 二 ， 在 延迟 实现 中 ， 一旦 findfirst() 方法 得 到 一 
个 元 素 ， 处 理 就 可 以 停止 了 。 这 意味 着 实际 通过 过 滤器 传递 的 只 是 所 有 元 素 的 一 个 子 集 。 
而 另 一 方面 ， 在 尽早 处 理 的 实现 方案 中 ， 则 必须 多 次 处 理 整个 ArrayList， 一 直到 最 后 一 
个 创建 。 
因此 ， 在 这 个 例子 中 延迟 实现 比 上 面 的 替代 方案 性 能 更 好 ， 也 就 不 足 为 奇 了 。 具 体 而 言 ， 
测试 中 所 处 理 的 ArrayList 包含 456 976 个 元 素 ， 每 个 元 素 都 是 4 字母 股票 代码 ， 元 素 按 
字母 顺序 排列 。 就 延迟 实现 而 言 ， 在 遇 到 BBBB 之 前 ， 只 处 理 了 18 278 个 元 素 ， 到 BBBB 
就 可 以 停止 了 。 迭 代 器 实现 所 花 的 时 间 要 比 延迟 实现 长 两 个 数量 级 ， 如 表 12-10 所 示 。 


表 12-10: 延迟 处 理 与 尽早 处 理 的 时 间 对 比 












































实现 所 用 时 间 ( 秒 ) 
过 滤器 /findFirst 0.359 
迭代 器 /findFirst 48.706 





为 什么 过 滤器 解决 方案 比 迭代 器 快 这 么 多 呢 ? 一 个 原因 是 ， 过 滤器 有 机 会 使 用 算法 优化 : 
当 完 成 需要 做 的 任务 时 ， 就 可 以 停 下 来 ， 因 此 处 理 的 数据 较 少 。 


如 果 必 须 处 理 整 组 数据 ， 过 滤器 和 过 代 器 的 性 能 相 比 又 会 如 何 呢 ?对 于 这 个 例子 ， 我 们 稍 
微 修改 一 下 测试 。 前 面 的 例子 很 好 地 演示 了 多 个 过 滤器 如 何 工 作 ， 但 是 很 明显 ， 如 果 用 一 
个 过 滤器 处 理 ， 性 能 有 望 变 得 更 好 : 

public int countSymbols(ArrayList<String> al) { 


int count = 0; 
t = al.stream(). 






































filter(symbol -> symbol.charAt(0) != 'A' && 
symbol.charAt(1) != 'A' && 
symbol.charAt(2) != 'A' && 


symbol.charAt(3) != 
forEach(symbol -> count++); 
return count; 


} 
这 个 例子 也 修改 了 最 终 代 码 ， 会 计算 股票 代码 的 个 数 ， 这 样 就 会 处 理 整 个 列表 了 。 另 一 方 
面 ， 尽 早 处 理 的 方案 也 可 以 稍 作 修 改 ， 直 接 使 用 返 代 器 : 


public int countSymboLs(ArrayList<String> al) { 
int count = 0; 


1 
\ 
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for (String symboL : al) { 


if (symbol.charAt(0) != 'A' && 
symbol.charAt(1) != 'A' && 
symbol.charAt(2) != 'A' && 
symbol.charAt(3) != 'A') 
CounNt++; 


return count; 


} 
即使 在 这 种 情况 下 ， 延 迟 过 滤器 的 实现 还 是 要 比 泛 代 器 快 (参见 表 12-11)。 
表 12-11: 使 用 一 个 过 滤器 与 一 个 迭代 器 的 时 间 











实现 所 用 时 间 ( 秒 ) 
多 个 过 滤器 18.0 
单个 过 滤器 6.5 
迭代 器 /计数 6.8 








出 于 比较 的 目的 ， 表 12-11 的 第 一 行 是 使 用 4 个 独立 的 迭代 器 处 理 整 个 列表 的 情况 。 和 只 
用 一 个 过 着 器 这 种 最 优 情 况 相 比 ， 使 用 一 个 过 着 器 还 是 要 比 使 用 一 个 迭代 器 稍微 快 些 。 
快速 小 结 
1. 过 滤器 因为 支持 在 迭代 过 程 中 结束 处 理 ， 所 以 有 很 大 的 性 能 优势 。 
2.， 即使 都 要 处 理 整 个 数据 集 ， 一 个 过 滤器 还 是 要 比 一 个 迭代 器 稍微 快 些 。 
3. 多 个 过 滤器 有 些 开销 ， 所 以 要 确保 编写 好 用 的 过 滤器 。 














12.12 ”小结 


本 章 研究 了 Java SE JDK 的 一 些 重点 领域 ， 并 对 Java 性 能 方面 的 一 些 实验 做 了 总 结 。 本 
章 中 的 大 部 分 主题 都 有 一 个 有 趣 之 处 ， 即 它们 表现 出 了 JDK 本 身 性 能 的 演进 。 随 着 Java 
作为 一 个 平台 不 断 发 展 和 成 熟 ，Java 的 开发 者 发 现 : 对 于 会 重复 生成 的 异常 ， 不 需要 
浪费 时 间 提 供 线程 栈 ， 使 用 线程 局 部 变量 避免 随机 数 生 成 器 的 同步 ， 是 个 不 错 的 选择 ， 
ConcurrentHashMap 默认 大 小 已 经 太 过 庞大 ， 类 加 载 器 因为 同步 锁 而 不 能 并 行 运行 ， 诸 如 
此 类 。 

成 功 实现 改进 的 持续 过 程 都 与 Java 的 性 能 优化 息息相关 : 从 调 优 编译 器 和 垃圾 收集 器 ， 到 
更 高 效 地 使 用 内 存 ， 再 到 理解 Java SE 和 Java EE API 的 主要 性 能 差异 等 。 学 习 了 本 书 中 的 
各 种 工具 和 过 程 以 后 ， 你 就 可 以 对 自己 的 代码 运筹 崔 坚 ， 实 现 持 续 的 改进 。 
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表 A-1: 调 优 JIT 编 译 器 的 标志 






































标志 功能 

-server 选择 使 用 server 
编译 器 

-client 选择 使 用 client 
编译 器 

-XX:+TieredCompilation 使 用 tiered 编译 
(同时 选择 client 
和 server 标志 的 


-XX:ReservedCodeCacheSize=<MB> 


-XX:InitiaLCodeCacheSize=<MB> 


-XX:CompileThreshold=</\> 


-XX:+PrintCompilation 


特性 ) 
设 定 JIT 编译 器 
进行 代码 编译 
保留 空间 
用 于 替 JIT 编译 
器 编译 代码 分 配 
初始 空间 
设置 一 段 代 码 或 
循环 执行 多 少 次 
之 后 转 而 进行 
编译 








在 日 志 中 输出 
JIT 编译 器 进行 
的 操作 


























使 用 场景 

适用 于 需 长 时 间 运 行 ， 同 时 又 要 求 
高 性 能 的 应 用 

适用 于 启动 时 间 是 最 重要 因素 的 
应 用 

适用 于 希望 取得 最 佳 性 能 ， 同 时 又 





有 足够 的 内 存 可 以 支撑 额外 的 编译 


代码 的 应 用 
当 你 遭遇 警示 消息 “你 的 代码 缓存 “ 
已 用 尽 ” 时 ， 可 以 使 用 这 个 标志 ， 




















通常 结合 Tiered 编译 标志 一 起 使 用 


存 ， 














志 可 以 让 更 多 的 方 


行 ， 


有 时 就 是 一 种 优势 。 
如 果 你 怀疑 某 个 重要 的 方法 没有 进 
行 编译 ， 或 者 对 编译 器 的 工作 流程 








行 查看 


如 果 你 需要 为 代码 缓存 预 分 配 内 
可 以 使 用 该 标志 
况 不 常 发 生 
使 用 server 编译 器 时 ， 调 整 这 个 标 


， 不 过 这 种 情 


让 编译 更 早 地 发 生 。 如 果 你 使 


用 的 不 是 Tiered 编译 ， 第 一 种 情况 











I 好 奇 ， 都 可 以 使 用 这 个 标志 进 


更 多 信息 
“热点 编译 ”，P59 


“热点 编译 *，P59 


“热点 编译 *”，P59 





优 代 码 缓存 ， 











“ 调 优 代码 缓存 "， 
P67 


“编译 国 值 ”，P68 


“检测 编译 过 程 ”， 
P70 
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功能 使 用 场景 


更 多 信息 





-XX:+CICompilerCount=</\> 


设置 JIT 编译 器 使 用 Tiered 编译 标志 时 ， 如 果 有 太 

使 用 的 线程 数 ”多 的 编译 线程 启动 (尤其 是 在 运行 
了 多 个 JVM 的 大 型 机 上 )， 通 过 该 
标志 可 以 调节 JIT 线程 的 数目 








“编译 线程 "，P73 





表 A-2: 选择 GC 算 法 的 标志 


























标志 功能 使 用 场景 更 多 信息 
-XX:+UseSerialGC 选择 使 用 简单 的 单线 程 适用 于 容量 小 于 100 MB 的 “Serial 垃圾 收集 
圾 收集 算法 堆 器 ”，P84 
-XX:+UseParaLLeLOLdGC 应 用 线程 停顿 时 使 用 多 如 果 你 的 应 用 能 够 容忍 偶尔 “Throughpnut 收 
个 线程 对 老年 代 进 行 垃 发 生 的 长 时 间 停顿 ， 而 你 又 集 器 ”，P85 
豚 回 收 希望 用 最 小 的 CPU 消耗 取 


-XX:+UseParallelGC 











用 线程 停顿 时 使 用 多 

























































































得 最 大 的 吞吐 量 ， 可 以 考虑 
使 用 这 个 标志 


与 UseParatLtLetLGC 标志 结合 


























“Throughput 收 























以 
个 线程 对 新 生 代 空 间 进 使 用 集 器 ”，P85 
行 垃圾 收集 
-XX:+UseConcMarkSweepGC 于 用 后 台 线 程 以 最 低 的 如 果 你 有 充足 的 CPU 资源 “CMS 收集 器 ”， 
停顿 时 间 回 收 老年 代 的 可 以 运行 后 台 线 程 ， 你 的 堆 P85 
入 圾 对 象 也 相对 较 小 ， 并 且 你 不 希望 
垃圾 收集 的 停顿 时 间 过 长 ， 
就 可 以 使 用 该 标志 
-XX:+UseParNewGC 应 用 线程 停顿 时 ,使 用 与 ConcMarksweepGC 标志 结 “CMS 收集 器 ”， 
多 个 线程 回收 新 生 代 空 合 使 用 P85 
间 
-XX:+UseG1GC 应 用 线程 停顿 时 ， 使 用 你 有 足够 的 CPU 资源 可 以 “G1 垃圾 收集 
多 个 线程 回收 新 生 代 空 运行 后 台 线 程 ， 你 的 堆 也 比 器 "，P85 
间 ， 使 用 后 台 线 程 回 收 较 大 ， 同 时 你 又 不 希望 有 长 
老年 代 空 间 ， 以 最 大 程 时 间 的 停顿 ， 可 以 考虑 使 用 
度 减 小 停顿 该 标志 
表 A-3: 适用 于 所 有 GC 算 法 的 通用 标志 
标志 功能 使 用 场景 更 多 信息 
Xms 设 定 堆 的 初始 大 小 如 果 堆 的 默认 初始 大 小 对 于 “调整 堆 的 大 
你 的 应 用 而 言 过 小 ， 可 以 考 小 "，P92 
虑 使 用 该 标志 
-Xmx 设 定 堆 的 最 大 值 如 果 上 默认 的 堆 大 小 对 你 的 应 “调整 堆 的 大 
用 而 言 过 小 (或 者 过 大 )， 小 ”，P92 


可 以 利用 该 标志 调整 
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标志 功能 使 用 场景 更 多 信息 
-XX:NewRatio 设置 新 生 代 与 老年 代 之 增 大 这 个 值 会 降低 分 配给 新 “ 代 空 间 的 调 
间 的 比率 生 代 空间 的 堆 的 比例 ; 减 小 整 "，P95 
这 个 值 可 以 增 大 分 配给 新 生 
代 的 堆 的 比率 。 这 个 设置 只 
是 一 个 初始 值 ， 除 非 自 适 应 
调整 被 关闭 了 ， 否 则 这 个 比 
率 会 随 着 垃圾 收集 发 生变 化 
(CMS 收集 器 是 个 例外 ， 使 
用 CMS 时 新 生 代 的 大 小 保 
持 恒 定 )。 随 着 新 生 代 空间 
的 减 小 ， 新 生 代 垃圾 收集 的 
频率 会 增加 ，Full GC 的 频 
率 会 降低 (反之 亦 然 ) 
-XX:NewSize 设置 新 生 代 的 初始 大 小 你 已 经 清楚 地 了 解 你 应 用 程 “ 代 空间 的 调 
序 的 需求 时 ， 就 可 以 进行 相 整 *"，P95 
应 的 设置 
-XX:MaxNewSize 设置 新 生 代 的 最 大 值 ”你 已 经 清楚 地 了 解 你 应 用 程 “ 代 空间 的 调 
序 的 需求 时 ， 就 可 以 进行 相 整 *"，P95 
应 的 设置 
Xmn 设置 新 生 代 的 初始 值 最 你 已 经 清楚 地 了 解 你 应 用 程 “ 代 空间 的 调 
大 值 序 的 需求 时 ， 就 可 以 进行 相 整 *"，P95 
应 的 设置 
-XX:PermSize=N 设置 永久 代 的 初始 值 ”如 果 你 的 应 用 使 用 了 大 量 的 “永久 代 和 元 空 
(只 适用 于 JDK7) 类 ， 你 可 能 需要 适当 调整 ， 间 的 调整 "，P96 
增 大 默认 值 
-XX:MaxPermSize=N 设置 永久 代 的 最 大 值 如果 你 的 应 用 使 用 了 大 量 的 “永久 代 和 元 空 
(只 适用 于 JDK 7) 类 ， 你 可 能 需要 适当 调整 ， 间 的 调整 ”，P96 
增 大 默认 值 
-XX:MetaspaceSize=N 设置 元 空间 的 初始 大 小 如 果 你 的 应 用 使 用 了 大 量 的 “永久 代 和 元 空 
(只 适用 于 JDK 8) 类 ， 你 可 能 需要 适当 调整 ， 间 的 调整 ”，P96 
增 大 默认 值 
-XX:MaxMetaspaceSize=N 设置 元 空间 的 最 大 容量 减 小 这 个 值 可 以 限制 类 的 元 “永久 代 和 元 空 
(只 适用 于 JDK 8) 数据 占用 空间 大 小 间 的 调整 "，P96 
-XX:ParallelGCThreads=N 设置 垃圾 收集 器 使 用 的 如 果 系 统 上 同时 运行 了 多 个 “控制 并 发 ”， 
线程 数 JVM， 可 以 适当 减 小 该 参数 P97 
值 。 如 果 JVM 使 用 的 堆 非 
常 大 ， 又 运行 在 一 个 处 理 能 
力 很 强 的 机 器 上 ， 就 应 该 适 
当 增 大 这 个 参数 值 
-verbose:gc 开启 基本 的 GC 日 志 功 GC 日 志 应 一 直 开 启 ， 但 是 “GC 工具 ”，P99 
能 这 还 不 够 ,通常 更 详细 的 日 


志 会 更 好 
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标志 功能 使 用 场景 更 多 信息 
-XLoggc:<path> 将 GC 日 志 记录 到 某 个 豆 古 不 变 的 是 ， 在 日 志 中 保 “GC 工具 ”，P99 
文件 而 非 标准 输出 存 这 些 信息 总 是 更 好 的 
-XX:+PrintGC 开启 GC 的 基本 日 志 ”我 们 应 该 尽量 开启 GC 日志, “GC 工具 ”，P99 
越 详细 的 日 志 通 常 越 有 益 
-XX:+PrintGCDetails 开启 GC 的 详细 日 志 ”即使 是 在 生产 环境 中 ， 也 应 “GC 工具 ”，P99 
尽量 开启 该 标志 (GC 日 志 
的 开销 几乎 可 以 忽略 ) 
-XX:+PrintGCTimeStamps 为 GC 日 志 中 的 每 个 条 尽量 开启 ， 除 非 你 已 经 开启 “GC 工具 ”，P99 
目 打 印 相 对 时 间 惟 了 日 期 时 间 惟 
-XX:+PrintGCDateStamps 为 GC 日 志 中 的 每 个 条 相对 于 时 间 惟 方式 ， 这 种 方 “GC 工具 ，P99 
目 打印 日 期 时 间 疏 式 的 开销 更 大 ， 不 过 可 能 
容易 处 理 
-XX:+PrintReferenceGC 打印 GC 过 程 中 弱 引 用 如 果 程 序 中 大 量 使 用 了 这 种 “ 弱 引 用 、 软 引 
和 软 引 用 的 信息 引用 ， 开 局 这 个 标志 可 以 了 用 与 其 他 引用 ”， 
解 它 们 对 GC 开销 的 影响 P165 
-XX:+UseGCLogFileRotation 开启 GC 日 志 循 环 功能 在 长 期 持续 运行 的 生产 环境 “GC 工具 ”，P99 
以 节省 文件 空间 中 ，GC 日 志 会 消耗 大 量 的 
磁盘 空间 。 在 这 种 情况 下 ， 
你 可 能 希望 开启 该 标志 
-XX:NumberofGCLogFiles=N 开启 GC 日 志文 件 循环 在 长 期 持续 运行 的 生产 环境 “GC 工具 ”，P99 
时 ， 你 可 以 使 用 该 标志 中 ，GC 日 志 会 消耗 大 量 的 
设 定 保留 多 少 个 日 志文 磁盘 空间 。 在 这 种 情况 下 ， 
件 你 可 能 希望 开启 该 标志 
-XX:GCLogFileSize=N 开启 日 志 循 环 时 ， 利 用 需要 长 期 持续 运行 的 生产 环 “GC 工具 ”，P99 
该 标志 可 以 设 定 日 志 循 境 中 GC 日 志 会 消耗 大 量 的 
环 之 前 每 个 日 志文 件 的 磁盘 空间 ， 这 种 情况 你 可 能 
大 小 希望 开启 该 标志 
-XX:+UseAdaptiveSizepolicy 设置 该 标志 时 ，JVM 如 果 堆 的 大 小 已 经 精细 调 优 “ 自 适 应 调整 ”， 
会 依据 设 定 的 GC 目标 过 ， 则 可 以 关闭 该 标志 P98 
调整 堆 的 大 小 
-XX:+PrintAdaptivesizePolicy ”在 GC 日 志 中 输出 代 大 通过 该 标志 我 们 可 以 了 解 “ 自 适应 调整 ”， 
小 调整 的 详细 信息 JVM 是 如 何 工 作 的 。 使 用 P98 
G1 收集 器 时 ， 通 过 该 标志 
的 输出 可 以 了 解 Full GC 是 
否 源 于 巨型 对 象 的 分 配 
-XX:+PrintTenuringDistribution 在 GC 日 志 中 输出 对 象 通过 对 象 保持 的 信息 我 们 可 “晋升 及 Survivor 


-XX: 


InitialSurvivorRatio=N 








保持 的 信息 


设置 新 生 代 中 预 留 给 
Survivor 空间 的 大 小 








以 判断 是 否 需 要 调整 对 象 保 
持 的 标志 ， 以 及 如 何 调整 这 
些 标志 

如 果 “ 短 寿 ”(short-lived) 
对 象 频 繁 地 晋升 到 老年 代 ， 
你 可 能 需要 考虑 增 大 这 个 值 








空间 ”，P126 


“晋升 及 Survivor 
空间 ”，P126 
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标志 功能 使 用 场景 更 多 信息 

-XX:MinSurvivorRatio=N 设置 新 生 代 空间 中 用 于 减 小 这 个 值 会 减 小 Survivor “晋升 及 Survivor 
适应 调整 的 Survivor 空间 的 最 大 值 (反之 亦 然 ) ”空间 ”，P126 
空间 大 小 


-XX:TargetSurvivorRatio=N 


-XX:InitialTenuringThreshold=N 


-XX:MaxTenuringThreshold=N 








JVM 试 图 在 Survivor 
空间 保留 的 空闲 空间 
JVM 试 图 在 Survivor 
空间 保持 对 象 的 GC 周 
胃 数 ， 该 参数 设置 的 是 
一 个 初始 值 

设置 JVM 可 以 将 一 个 
对 象 保持 在 Survivor 空 






































空间 的 大 小 (反之 亦 然 ) 


Survivor 空 
间 ， 不 过 ， 
JVM 也 会 对 














赠 大 这 个 值 会 缩减 Survivor 


增 大 这 个 值 可 以 让 对 象 在 
间 停 留 更 长 的 时 
需要 注意 的 是 ， 
该 参数 进行 调节 
增 大 这 个 值 可 以 让 对 象 在 
Survivor 空间 停留 更 长 时 间 ， 








“晋升 及 Survivor 








空间 ”，P126 
“晋升 及 Survivor 
空间 ”，P126 


“晋升 及 Survivor 


空间 ”，P126 































































































间 的 最 大 GC 周期 数  JVM 会 依据 这 个 设 定 值 与 初 
台 装 值 ， 对 实际 的 晋升 国 值 
进行 调整 
表 A-4: Throughput 收 集 器 调 优 标志 
未 志 功能 使 用 场景 更 多 信息 
-XX:MaxGCPauseMillis=N ”为 Throughput 收集 器 设 定 通常 作 为 Throughput 收 “ 堆 大 小 的 自 迁 
最 长 停顿 时 间 ， 堆 的 大 小 会 集 器 调 优 的 第 一 步 ， 如 果 应 调整 和 静态 调 
依据 该 目标 动态 调整 Throughput 收集 器 计算 出 的 整 "，P105 
默认 堆 大 小 无 法 达到 应 用 的 
目标 就 会 对 其 进行 调整 
-XX:GCTimeRatio=N 日 于 控制 Throughput 收集 通常 作为 Throughput 收集 器 “ 堆 大 小 的 自 适 
器 在 垃圾 收集 上 花费 多 少时 调 优 的 第 一 步 ，Throughput 应 调整 和 静态 调 
间 (时 间 比 例 )， 堆 的 大 小 收集 器 计算 出 的 默认 堆 大 小 整 "，P105 
会 依据 该 目标 动态 调整 如 果 无 法 达到 应 用 的 目标 就 
会 对 其 进行 调整 
-XX: -AggressiveHeap 对 于 配置 了 大 量 内 存 的 机 不 推荐 使 用 该 标志 ， 理 想 的 “AggressiveHeap 





DR 


器 ， 如 果 只 运行 单一 的 虚拟 























机 ， 并 为 该 虚拟 机 分 配 了 大 用 
容量 的 堆 ， 使 用 该 标志 可 以 
开启 一 系列 的 优化 标志 











表 A-5: CMS 收 集 器 调 优 标志 





具体 的 调 优 标志 





情况 是 尽 可 能 地 按照 需要 使 标志 ”，P136 

















标志 功能 使 用 场景 更 多 信息 
-XX:CMSInitiatingOccupancyFraction=N 设 定 何 时 CMS 收 CMS 收集 器 如 果 发 生 并 发 模 “理解 CMS 收 
集 器 可 以 开启 老 式 失效 ， 就 应 该 适当 减少 该 集 器 ”"，P109 
年 代 空间 的 后 台 参数 的 值 
扫描 
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( 续 ) 
























































































































































标志 功能 使 用 场景 更 多 信息 
-XX:+UseCMSInitiatingOccupancyOnly 通知 CMS 收集 器 与 CMSInitiating0ccupancy- “理解 CMS 收 
仅 通 过 -XX:CMSIn- Fraction 标志 一 起 使 用 集 器 *”，P109 
itiatingOccupan- 
cyFraction 标志 决 
定 何 时 启动 CMS 
后 台 扫 描 
-XX:ConcGCThreads=N 设 定 CMS 收集 器 CMS 收集 器 发 生 并 发 模式 “理解 CMS 收 
进行 后 台 扫 描 使 失效 ， 同 时 又 有 大 量 的 空间 集 器 *"，P109 
用 的 线程 数 CPU 资源 时 ， 可 以 通过 该 标 
志 增 加 扫描 线程 数 
-XX:+CMSPermGenSweepingEnabled 通知 CMS 收集 器 采用 CMS 收集 器 的 应 用 服 “ 理 解 CMS 收 
对 永久 代 进 行 整理 务 器 进行 了 大 量 的 类 撮 载 时 ” 集 器 *"，P109 
-XX:CMSInitiatingPermOccupancyFracti- 设 定 何 时 CMS 收 CMSPermGenSweepingEnAbled “理解 CMS 收 
on=N 集 器 可 以 对 永久 标志 开启 的 同时 发 生 了 由 于 集 器 *”，P109 
代 进 行 扫描 永久 代 的 回收 不 够 快 导 致 的 
Full GC 时 
-XX:+CMSClassUnloadingEnabled 设 定 CMS 收集 器 与 CMSPermGenSweeping- “理解 CMS 收 
在 永久 代 扫 描 结 Enabled 结合 使 用 集 器 *”，P109 
束 后 和 抒 载 类 
-XX:+CMSIncrementalMode 以 增 量 模式 运行 如 果 CPU 资源 有 限 ， 不 过 “ 增 量 式 CMS 
CMS 收集 你 仍然 需 要 使 用 CMS 收集 垃圾 收集 ”， 
器 时 P117 
-XX:CMSIncrementalModeSafetyFactor=N 该 参数 会 影响 增 采用 增 量 式 CMS 收集 ， 同 “ 增 量 式 CMS 
量 式 CMS 垃圾 收 时 又 发 生 了 并 发 模式 失效 ， 垃 圾 收集 ”， 
集 后 台 线 程 的 运 此 时 应 该 减 小 该 参数 P117 
行 频 度 
-XX:CMSIncrementalDutyCycleMin=N 该 参数 会 影响 增 采用 增 量 式 CMS 垃圾 收 “ 增 量 式 CMS 
量 式 CMS 垃圾 收 集 ， 同 时 又 发 生 了 并 发 模式 垃圾 收集 ”， 
集 后 台 线 程 运 行 失效 时 ， 可 以 增 大 该 参数 进 P117 
的 频 度 行 调节 ， 不 过 推荐 的 方式 还 
是 使 用 CMSIncrementalMode- 
SafetyFactor 
-XX:CMSIncrementalDutyCycleMax=N 该 参数 会 影响 增 采用 增 量 式 CMS 垃圾 收 “ 增 量 式 CMS 
量 式 CMS 垃圾 收 集 ， 同 时 又 发 生 了 并 发 模式 垃圾 收集 ， 
集 后 台 线 程 的 运 失效 时 ， 可 以 增 大 该 参数 进 P117 
行 频 度 行 调节 ， 不 过 推荐 的 方式 还 
是 使 用 CMSIncrementalMode- 
SafetyFactor 
-XX:+CMSIncrementalDutyCycle 该 参数 会 影响 增 使 用 CMSIncrementalDutyCycle-“ 增 量 式 CMS 
量 式 CMS 垃圾 收 ”Min 时， 你 需要 设置 这 个 标志 垃圾 收集 ”， 
集 后 台 线 程 的 运 P117 
行 频 度 
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表 A-6: G1 收 集 器 的 调 优 标志 

















标志 功能 使 用 场景 更 多 信息 
-XX:MaxGCPauseMillis=N 设置 G1 收集 的 最 长 停 是 G1 收集 器 调 优 的 第 一 步 ， 可 以 “理解 G1 垃 
顿时 间 ; G1 收集 算法 会 尝试 调整 ( 增 大 ) 这 个 值 以 避免 圾 收集 器 ”， 
依据 该 参数 进行 相应 的 发 生 Full GC P118 
调整 


-XX:ConcGCThreads=N 


设置 G1 收集 后 台 扫 描 








有 足够 的 CPU 资源 ， 同 时 又 遭遇 “理解 G1 弓 


































































































































































































的 线程 数 并 发 模式 失效 时 ， 可 以 考虑 调整 圾 收集 器 ”， 
该 参数 P118 
-XX:InitiatingHeapOccupan- 设置 何 时 G1 收集 开启 如 果 G1 收集 发 生 并 发 模式 失效 , “理解 G1 垃 
cyPercent=N 后 台 扫 描 应 该 减 小 这 个 参数 值 圾 收集 器 ”， 
P118 
-XX:G1MixedGCCountTarget=N ”G1 收集 器 尝试 回收 老年 如 果 G1 收集 器 发 生 了 并 发 模式 失 “理解 G1 垃 
代 分 区 的 垃圾 时 ， 要 设 效 ， 减 小 这 个 值 ， 如 果 混 合式 GC 圾 收集 器 ”， 
置 混合 GC 的 次 数 的 周期 过 长 ， 增 大 这 个 值 P118 
-XX:G1HeapRegionSize=NW 设置 G1 分 区 的 大 小 对 非常 大 的 堆 ， 或 者 应 用 需要 分 “G1 分 区 的 
配 非 常 巨大 的 对 象 时 ， 可 以 增 大 大 小 ”，P133 
这 个 值 进 行 调节 
表 A-7: 内 存 管理 标志 
标志 功能 使 用 场景 更 多 信息 
-XX:+HeapDumpOnOutOfMemoryError JVM 抛 出 一 个 内 存 如 果 应 用 抛 出 堆 空间 或 者 永 “内 存 溢出 错误 ， 
异常 就 自动 生成 一 个 和 久 代 引 发 的 内 存 错误 可 以 考 P146 
堆 转 储 虑 开启 这 个 标志 ， 分 析 堆 上 
的 内 存 泄漏 
-XX:HeapDumpPath=<path> 设置 自动 堆 转 储 保存 由 于 内 存 错 误 或 者 GC 事件 “内 存 溢出 错误 ， 
的 文件 名 引起 的 堆 转 储 ， 可 以 通过 这 P146 
个 标志 指定 保存 路 径 ， 不 再 
是 java_pid.hprof (假设 所 有 
这 些 标志 都 已 经 开启 ) 
-XX:SoftRefLRUPolicyMsPerMB=N ”控制 使 用 多 长 时 间 内 存 不 足 的 情况 下 , 减 小 这 “ 弱 引 用 、 软 引 
后 软 引 用 对 象 可 以 个 值 可 以 帮助 更 快 地 回收 软 用 与 其 他 引用 ”， 
被 回收 引用 对 象 P165 
-XX:MaxDirectMemorySize=N 设置 通过 ByteBuffer 如 果 你 希望 限制 程序 能 够 分 “内 存 占 用 ”，P176 
类 的 atlocatepirect() 配 的 直接 内 存量 ， 可 以 考虑 
方法 可 以 分 配 多 少 本 使 用 该 标志 。 应 注意 的 是 ， 
地 内 存 分 配 超过 64 MB 直接 内 存 的 
对 象 不 需要 设置 这 个 标志 
-XX:+UseLargePages 设置 JVM， 在 可 行 如 果 操 作 系 统 支持 ， 使 用 这 “大 页 ”，P182 


的 前 提 下 ， 从 操作 系 
统 的 大 页 面 系统 中 分 
配 页 国 























个 标志 通常 都 能 改善 性 能 
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标志 功能 使 用 场景 更 多 信息 
-XX:+LargePageSizeInBytes=N 设置 JVM 分 配 指 定 在 Solaris 系统 上 ， 增 大 这 “大 页 ”，P182 
大 小 的 大 页 面 ( 仅 适 个 值 ( 壁 如 调整 到 256 MB) 
用 于 Solaris) 通常 能 取得 较 好 的 性 能 
-XX:+StringTableSize=N 设置 JVM 用 于 保 如 果 应 用 需要 临时 保存 大 量 “ 字 符 串 的 保留 ”， 
存 内 部 字符 串 中 的 字符 串 ， 可 以 考虑 增 大 这 P157 
Hashtable 的 大 小 个 值 
-XX:+UseCompressed0ops 为 对 象 引 用 模拟 35 这 个 标志 对 于 堆 的 容量 小 于 “压缩 的 OOP”， 
位 长 的 指针 32 GB 的 系统 默认 开启 ， 禁 P185 
用 该 标志 不 会 带 来 性 能 的 提 
升 
-XX:+PrintTLAB 在 垃圾 收集 日 志 中 输 如 果 你 使 用 的 JVM 不 支持 TLAB,， P129 
出 TLAB 相关 的 概 JFR, 通过 这 个 标志 可 以 确保 
略 信息 TLAB 的 分 配 是 有 效 的 
-XX:TLABSize=N 设置 TLAB 的 大 小 ”如果 应 用 正在 进行 大 量 的 TLAB, P129 
TLAB 外 分 配 ， 可 以 通过 这 
个 标志 增 大 TLAB 的 容量 
-XX: -ResizeTLAB 关闭 TLAB 的 大 小 一 旦 设 定好 TLAB 的 大 小 ，TLAB, P129 
调整 功能 请 确保 关闭 这 个 标志 
表 A-8: 线程 处 理 标志 
标志 功能 使 用 场景 更 多 信息 
-Xss<N> 设置 线程 的 本 地 尤其 是 在 32 位 Java 虚拟 机 上 ， 减 小 这 个 值 能 “调节 线程 栈 大 


堆栈 大 小 
关闭 Java 虚拟 机 对 基于 线程 池 的 应 用 ， 这 个 标志 党 常 能 帮助 提 “偏向 锁 "，P212 


-XX: -BiasedLocking 





为 JVM 的 其 他 部 分 留 出 更 多 的 可 用 内 存 











的 偏向 锁 算 法 升 性 能 


表 A-9: 杂项 JVM 调 优 标志 





小 ，P211 





























标志 功能 使 用 场景 更 多 信息 
-XX:+ALwaysLockCLassLoader ”将 类 加 载 方案 由 Java 7 大 型 系统 上 ， 类 的 载 入 通常 由 “类 加 载 ”，P280 
的 并 行 加 载 回 退 到 Java 单一 线程 完成 ， 使 用 这 个 标志 


-XX:-StackTraceInThrowable 


-XX: -RestrictContended 

















6 的 非 并 行 加 载 
关闭 发 生 异 常 时， 堆栈 
跟踪 信息 的 收集 











允许 非 JDK 代码 使 用 
@Contended 注解 

















对 启动 性 能 有 一 定 的 提升 
堆栈 调用 非常 深 的 系统 上 ， 经 
常会 抛 出 异常 (这些 场 景 中 ， 
修改 代码 ， 抛 出 更 少 的 异常 机 
会 非常 小 )， 可 以 考虑 使 用 该 
如 果 应 用 程序 代码 使 用 了 
@contended 注释 方式 填充 变 
量 ， 为 避免 伪 共 享 ， 需要 设置 


这 个 标志 


























“异常 ”，P287 


“Contended 注 
解 "，P210 
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标志 功能 使 用 场景 更 多 信息 
-XX: -EnabLeContended 禁 用 JDK 代码 中 的 推荐 开启 该 标志 。 不 过 在 某 些 “Contended 注 
@Contended 注解 JDK 类 中 ， 禁 用 该 标志 可 以 解 "，P210 


-XX:+AggressiveOpts 





启用 某 些 尝鲜 型 的 JVM 
优化 。 这 些 优化 在 将 来 
的 发 布 版 本 中 可 能 会 变 
成 默认 设置 











节省 少量 空间 




















你 可 以 使 用 这 个 标志 开启 这 “Aggressive0pts 


些 试用 性 质 的 优化 进行 测试 ， 标 志 ”，P296 


但 是 也 要 意识 到 这 些 标 志 随 
着 新 的 JVM 发 布 , 行为 可 能 
会 发 生变 化 





表 A-10: Java 飞 行 记录 器 控制 标志 








标志 功能 使 用 场景 更 多 信息 
-XX:+FLightRecorder 启用 Java 飞行 记录 器 。 ”推荐 开启 飞行 记录 器 ， 它 的 “Java 飞行 记 
开销 非常 小 ， 只 有 在 实际 记录 器 "，P46 


-XX:+FlightRecorderOptions 


-XX:+UnLockCommerciaLFeatures 








录 发 生 时 有 少许 的 开销 (这 
时 的 开销 多 少 ， 依 据 使 用 的 
特性 不 同 ， 会 有 所 不 同 ， 不 
过 总 体 而 言 还 是 相当 小 的 ) 








通过 这 个 命令 行 标志 可 以 控制 JVM 默 认 进 行 哪些 数 


设置 默认 的 记录 标志 
允许 JVM 使 用 付费 
开源 ) 功能 








据 的 记录 

( 非 如 果 你 购买 了 对 应 的 许可 ， 
通过 设置 该 标志 可 以 启用 
Java 飞行 记录 器 的 付费 功能 


b= 





“Java 飞行 记 


录 器 ”，P46 
“Java 飞行 记 
录 器 "，P46 
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地 方 是 那 硕 大 而 灵活 的 鼻子 ， 有 一 部 分 其 至 徐 于 其 嘴 部 之 上 。 高 鼻 冷 羊 的 鼻子 能 够 在 夏天 
帮助 过 滤 砂 尘 ， 而 在 冬天 又 能 使 吸入 的 空气 在 进入 肺 腔 之 前 加 热 。 


高 鼻 冷 羊 的 皮毛 能 随 着 季节 自动 进行 调节 : 寒冷 的 季节 ， 毛 白 且 厚实 ; 炎热 的 季节 ， 毛 
色 会 转变 为 肉桂 色 ， 并 且 厚 度 也 显著 变 薄 。 高 鼻 羚 羊 的 肩 高 大 约 为 2 至 3 英尺 ， 体 重 在 
80~140 磅 之 间 。 高 鼻头 羊 有 细 而 长 的 腿 ， 在 逃避 猎 食 者 时 的 奔跑 速度 可 高 达 每 小 时 80 英 
里 。 它 们 栖息 于 半 沙 漠 化 的 草原 地 区 ,那里 生长 着 各 种 各 样 的 野草 和 灌木 (有些 灌木 甚至 
只 适合 高 鼻 羚 羊 食 用 ， 对 其 他 动物 却 有 毒性 )， 高 鼻 冷 羊 就 依赖 这 些 植物 为 生 。 

高 鼻 羚 羊 通常 喜 群居 ， 一般 30 至 40 头 高 鼻 凑 羊 聚 居 为 生 。 不 过 到 冬天 迁移 的 时 节 ， 它 们 
会 汇集 成 上 千 头 的 大 集群 一 起 行动 。 它 们 的 交配 期 始 于 十 一 月 末 ， 也 就 是 整个 群落 向 南 完 
成 迁徙 之 后 。 在 这 期 间 ， 雄 性 高 鼻 郑 羊 吃 得 很 少 ， 相 互 之 间 会 进行 激烈 的 争斗 ， 最 终 有 大 
量 的 高 鼻 羚 羊 力 调 而 死 。 角 逐 的 获胜 者 和 多 头 唆 性 高 鼻 羚 羊 交配 。 次 年 的 四 月 后 期 ， 每 只 
雌性 高 鼻 羚 羊 会 产 下 一 到 两 只 幼 嘎 。 

高 鼻 羚 羊 几乎 全 部 栖 居 于 哈萨克 斯 坦 ， 只 有 一 小 部 分 隔绝 的 分 支 生活 在 蒙古 。 虽 然 它 们 曾 
经 广泛 地 分 布 于 中 亚 的 草原 ， 但 由 于 过 去 几 十 年 的 大 量 猎 捕 ， 它 们 现在 已 经 濒临 灭绝 ， 被 
列 为 “濒危 保护 动物 "”。 苏 联 的 解体 放纵 了 盗 猎 者 们 ， 无 节制 的 猎 杀 导致 高 鼻 羚 羊 种 群 的 
数量 又 降 97%。 种 群 的 恢复 困难 重重 ， 因 为 只 有 雄性 高 鼻 羚 羊 有 角 ， 而 高 鼻 疮 羊角 是 名 责 
的 中 药材 ， 需 求 旺 感 。 受 利益 的 驱使 ， 盗 猎 者 们 几乎 杀 尽 了 所 有 的 雄性 高 自 冷 羊 ， 严 重 损 
害 了 这 个 种 群 的 繁衍 能 

封面 图 片 取 自 一 个 活动 板 ， 来 源 未 知 。 
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O'REILLY 


Java 性 能 权威 指南 


市 面 上 介绍 Java 的 书 有 很 多 ， 但 专注 于 Java 性 能 的 并 不 多 ， 能 游 丸 有余 
地 展示 性 能 优化 难点 的 更 是 凤毛麟角 ， 本 书 即 是 这 样 一 本 十 分 珍贵 的 指 
南 。 通 过 使 用 JVM 和 Java 平 台 ， 以 及 Java 语 言 和 应 用 程序 接口 ， 本 书 详尽 
讲解 了 Java 性 能 调 优 的 相关 知识 ， 帮 助 读者 深入 理解 这 一 主题 ， 最 终 使 
程序 如 虎 添 翼 。 

通过 阅读 本 书 ， 你 可 以 : 

国 运用 四 个 基本 原则 最 大 程度 地 提升 性 能 测试 的 效果 

四 使 用 JDK 中 自 带 的 工具 收集 Java 应 用 的 性 能 数据 

国 理解 JIT 编 译 器 的 优 缺 点 

四 调 优 JVM 垃 圾 收集 器 以 减少 对 程序 的 影响 

加 学 习 管 理 堆 内 存 和 JVM 原 生 内 存 的 方法 

国 了 解 如 何 最 大 程度 地 优化 Java 线 程 及 同步 的 性 能 

国 解决 Java EE 和 Java SE 应 用 程序 接口 的 性 能 问题 

国 改善 Java 驱 动 的 数据 库 应 用 程序 的 性 能 
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“Scott 在 这 本 书 里 深入 介绍 了 JIT 
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